Titans: Google crea una IA capaz de aprender infinitamente

Titans: Google crea una IA capaz de aprender infinitamente

Un nuevo cerebro para las máquinas aumenta la capacidad de cálculo mientras reduce los costos.

image

Google ha desarrollado una nueva arquitectura de redes neuronales llamada Titans, diseñada para resolver el problema de memoria en los modelos LLM. Ahora, estos modelos pueden procesar más datos a la vez sin aumentar los costos de cálculo. Titans permite identificar y conservar fragmentos importantes de información incluso en textos muy extensos.

La base de Titans combina bloques de atención estándar con "memoria neuronal", lo que permite a los modelos trabajar simultáneamente con información actual y almacenar datos para un uso a largo plazo. Estas redes son capaces de manejar millones de tokens mientras operan con mayor velocidad y precisión en comparación con los modelos LLM clásicos o alternativas como Mamba y Samba.

Los modelos convencionales utilizan el mecanismo de autoatención (self-attention) para analizar relaciones entre palabras. Sin embargo, en textos muy largos, los costos computacionales aumentan drásticamente. Algunos enfoques nuevos, más económicos, sacrifican precisión al no poder capturar todos los detalles. Titans ofrece un equilibrio al combinar memoria a corto y largo plazo.

La característica clave de Titans es un módulo de "memoria neuronal a largo plazo", capaz de almacenar nueva información durante el funcionamiento del modelo. Por ejemplo, si los datos son inesperados o difieren de los ya conocidos, el módulo los identifica como relevantes y los guarda. Para evitar sobrecargar la memoria, la información innecesaria se elimina automáticamente.

La arquitectura Titans consta de tres componentes:

  1. Núcleo. Actúa como memoria a corto plazo y procesa el contexto utilizando el mecanismo clásico de autoatención;
  2. Memoria a largo plazo. Almacena datos más allá del contexto actual;
  3. Memoria permanente. Conserva los conocimientos básicos adquiridos durante el entrenamiento.

En pruebas realizadas con modelos Titans que contienen entre 170 y 760 millones de parámetros, la arquitectura mostró un alto rendimiento, especialmente en tareas con textos extensos. Por ejemplo, en tareas que requieren encontrar datos relevantes entre grandes volúmenes de información, Titans superó a GPT-4, GPT-4o-mini y Llama-3.

El tamaño de la ventana de contexto de Titans se amplió a 2 millones de tokens, manteniendo bajos los costos de memoria. Esto abre grandes oportunidades para desarrollar aplicaciones donde se puedan integrar nuevos datos directamente en las consultas sin necesidad de métodos adicionales complejos. Google planea publicar el código de Titans para PyTorch y JAX, facilitando su implementación por parte de los desarrolladores.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Suscribirse