Ajuste Eficiente de LLM: Microsoft Presenta la Metodología MoRA

18:00 / 29.05.2024

Los Científicos Revelan Cómo Reducir los Costos de Entrenamiento de Grandes Modelos de Lenguaje.

Especialistas de Microsoft y la Universidad de Beihang han desarrollado una técnica innovadora para ajustar finamente los grandes modelos de lenguaje (LLM), que reduce significativamente los costos.

El nuevo método "MoRA" es una técnica de ajuste fino paramétricamente eficiente (PEFT) que elimina las limitaciones de otro método popular: LoRA (low-rank adaptation). MoRA es especialmente útil cuando se necesita entrenar el modelo con nuevos conocimientos. Con el creciente uso de los métodos PEFT en el entorno empresarial, MoRA podría convertirse en una herramienta importante para los desarrolladores de aplicaciones LLM.

Ventajas y desventajas de LoRA

El ajuste fino clásico requiere la actualización de todos los parámetros del modelo, lo que se convierte en un proceso costoso y lento cuando hay miles de millones de parámetros. Los métodos PEFT permiten encontrar un subconjunto óptimo de parámetros necesarios para ajustar el modelo a una tarea específica.

LoRA se hizo popular gracias a su capacidad para actualizar parámetros a través de matrices de bajo rango, lo que reduce significativamente los requisitos de memoria. Sin embargo, LoRA no siempre puede manejar tareas más complejas, como el razonamiento matemático y el preentrenamiento continuo.

Introducción de MoRA

LoRA (a la izquierda) utiliza matrices de bajo rango, mientras que MoRA (a la derecha) utiliza una matriz cuadrada para un ajuste fino con un uso eficiente de los parámetros.

Para superar las limitaciones de LoRA, los científicos presentaron MoRA, que utiliza matrices cuadradas en lugar de matrices de bajo rango. La idea principal de MoRA es utilizar parámetros entrenables para lograr el máximo rango en el espacio de dimensiones originales del modelo. A diferencia de LoRA, los tamaños de entrada y salida del adaptador MoRA no coinciden con el modelo original, por lo que se desarrolló una función de compresión/descompresión que convierte los datos entre los dos espacios.

Resultados de las pruebas de MoRA

La curva de pérdida de MoRA es muy similar al ajuste completo para tareas de memorización de conocimientos.

Las pruebas de modelos de igual tamaño de LoRA y MoRA mostraron que MoRA supera significativamente a LoRA en tareas de memorización y se acerca al rendimiento del modelo completamente ajustado. En tareas de ajuste de instrucciones y razonamiento matemático, MoRA mostró resultados comparables a LoRA, pero en el preentrenamiento continuo en los campos biomédico y financiero, MoRA superó a LoRA.

PEFT para negocios

El ajuste fino es una tarea importante para las aplicaciones corporativas de LLM. Permite a las empresas utilizar modelos más pequeños para tareas que anteriormente requerían modelos avanzados y costosos. LoRA y sus variantes son el estándar de oro para el ajuste fino paramétricamente eficiente. Existen muchas herramientas y plataformas para crear adaptadores LoRA, como S-LoRA, que permite ejecutar miles de adaptadores en una sola GPU.

Los científicos han lanzado una implementación de código abierto de MoRA compatible con LoRA. Esto podría convertirse en una herramienta importante para las aplicaciones empresariales que desean agregar nuevos conocimientos a los modelos base.

Noticias sobre el tema

Un monstruo de 36 mil millones de soles: posiblemente el agujero negro más grande del universo

¿Tus datos en la nube? Ya fueron robados. Y los hackers ni siquiera usaron virus

¿Pensabas que el problema eran los hackers? En realidad estaba en la arquitectura. Microsoft acaba de cambiarla y ya está preparada para los ataques cuánticos

Ajuste Eficiente de LLM: Microsoft Presenta la Metodología MoRA

Noticias sobre el tema

Un monstruo de 36 mil millones de soles: posiblemente el agujero negro más grande del universo

¿Tus datos en la nube? Ya fueron robados. Y los hackers ni siquiera usaron virus

¿Pensabas que el problema eran los hackers? En realidad estaba en la arquitectura. Microsoft acaba de cambiarla y ya está preparada para los ataques cuánticos

100 correos al día: Microsoft impone límites estrictos a los usuarios que abusan de servicios gratuitos

Tres meses para despedirse de 23H2: Microsoft sugiere amablemente que ha llegado el momento de actualizar

Microsoft llama a todos: Bloqueen PowerShell y la ejecución de scripts

La era de los clics llega a su fin: Windows prepara una interfaz que siempre te escuchará

1,1 mm en cerebro vivo: MIT bate todos los récords de penetración sin bisturí

Ghost Calls convirtieron las videollamadas en túneles invisibles para hackers, y nadie se dio cuenta