Modelos de lenguaje sin matemáticas innecesarias: La IA se libera de las cadenas de las matrices

Modelos de lenguaje sin matemáticas innecesarias: La IA se libera de las cadenas de las matrices

Investigadores han ideado cómo reducir el consumo de energía y mejorar el rendimiento de los LLM.

image

Científicos desarrollan método innovador para operar sistemas de procesamiento de lenguaje natural sin multiplicación de matrices. Este descubrimiento podría reducir significativamente los costos computacionales al trabajar con modelos de lenguaje grandes (LLM) como ChatGPT. La multiplicación de matrices (MatMul) es una operación en la que dos matrices se combinan para crear una nueva. Para realizar esta operación, las matrices deben ser compatibles en tamaño: el número de columnas de la primera matriz debe coincidir con el número de filas de la segunda. El resultado es una matriz donde cada elemento se calcula como la suma de los productos de los elementos correspondientes de la fila de la primera matriz y la columna de la segunda. Este método se utiliza en diversas áreas como gráficos por computadora, física y análisis de datos para resolver sistemas de ecuaciones, transformaciones y otras tareas matemáticas.

Hasta ahora, el funcionamiento de los LLM requería enormes recursos computacionales. Este proceso matemático es fundamental en el funcionamiento de las redes neuronales: compara la información entrante con parámetros predefinidos (pesos), lo que permite al programa generar las respuestas más probables a las consultas. Sin embargo, a medida que los sistemas de inteligencia artificial se volvían más poderosos y populares, la multiplicación de matrices empezó a limitar el rendimiento general. Incluso el uso de procesadores gráficos potentes, diseñados específicamente para estos cálculos, no logró resolver completamente el problema.

Nuevo enfoque para procesamiento de datos en IA

El nuevo enfoque propuesto por los investigadores cambia radicalmente la forma en que los datos son procesados en la IA. En lugar de utilizar números de punto flotante de 16 bits para los pesos, el sistema desarrollado opera con solo tres valores: -1, 0 y 1. Esta innovación permite reducir drásticamente la cantidad de cálculos necesarios. Además, los científicos han creado nuevas funciones que realizan los mismos tipos de operaciones que el método anterior, pero utilizando este principio simplificado.

Se han implementado nuevos métodos de cuantización que permitieron reducir la cantidad de pesos utilizados sin perder la calidad del funcionamiento. Esto ha llevado a una disminución de los requisitos de potencia de cálculo, lo cual ya es un logro significativo. Sin embargo, el avance clave ha sido la sustitución de los bloques de transformadores tradicionales por una nueva arquitectura llamada "unidades recurrentes lineales con compuertas sin MatMul" (MLGRU). Esta innovación ha permitido eliminar completamente la necesidad de la multiplicación de matrices en el procesamiento de datos de lenguaje, algo que antes se consideraba imposible.

Publicación y expectativas futuras

La investigación ha sido publicada en el servidor de preprints arXiv y está pendiente de revisión por pares. A pesar de esto, el trabajo ya ha captado la atención de la comunidad científica por su enfoque innovador para resolver el problema de los altos costos computacionales en la IA. Si la eficacia del método se confirma en estudios futuros, podría llevar a la creación de sistemas de IA más accesibles y eficientes en términos de energía.

¿Tu Wi-Fi doméstico es una fortaleza o una casa de cartón?

Descubre cómo construir una muralla impenetrable