La IA aprende de sí misma: ¿resolverá esto el problema de la escasez de datos?
Los sistemas de inteligencia artificial pronto podrían enfrentarse a la escasez de datos textuales para entrenamiento. El informe de Epoch AI de 2022 pronosticó que para 2026-2030 las empresas agotarán los datos disponibles públicamente.
Las previsiones de Epoch AI indican que los datos lingüísticos de baja calidad se agotarán entre 2030-2050, los datos lingüísticos de alta calidad para 2026 y los datos visuales entre 2030-2060. Estos datos son vitales para entrenar modelos de aprendizaje automático, y su escasez podría ralentizar el progreso en la IA.
Los datos de alta calidad juegan un papel clave en el entrenamiento de modelos avanzados de IA, como GPT-3, que requieren datos precisos y confiables para un rendimiento óptimo.
Gráficos de agotamiento de datos lingüísticos y visuales
Epoch AI compara esta tendencia con una "fiebre del oro" que agota los recursos. En el futuro cercano, empresas como OpenAI y Google competirán por datos de calidad, a veces pagando por ellos. Por ejemplo, las empresas hacen tratos con Reddit y sitios de noticias.
Con el tiempo, nuevos blogs, artículos y comentarios en redes sociales no serán suficientes, lo que obligará a las empresas a recurrir a correos electrónicos personales de usuarios o a datos sintéticos menos confiables generados por los propios chatbots. Si los datos se agotan, las empresas no podrán escalar sus modelos de manera efectiva, dificultando la mejora de su rendimiento.
Epoch AI hizo sus predicciones por primera vez hace 2 años, anticipando la escasez de datos para 2026. Desde entonces, han surgido nuevas técnicas que permiten un mejor uso de los datos existentes. Sin embargo, los límites siguen existiendo y ahora los investigadores predicen que los datos disponibles públicamente se agotarán en los próximos 2-8 años.
Según un nuevo estudio de Epoch AI, el volumen de datos textuales para modelos de lenguaje de IA aumenta aproximadamente 2.5 veces al año, y la capacidad de cómputo, 4 veces. Meta declaró que su próximo modelo Llama 3 está entrenado con 15 billones de tokens.
Científicos de la Universidad de Toronto consideran que la creación de IA más cualificadas puede lograrse mediante el entrenamiento de modelos especializados para tareas específicas. También señalan que entrenar IA con datos que ellos mismos producen podría deteriorar su rendimiento.
Si los textos humanos siguen siendo cruciales para la IA, Reddit y Wikipedia deberán reconsiderar cómo se utilizan sus datos. En la Fundación Wikimedia esperan que las personas sigan contribuyendo, a pesar del aumento del contenido generado automáticamente.
El estudio de Epoch AI dice que pagar a las personas por crear textos para la IA no será económicamente viable. Dado que OpenAI trabaja en el entrenamiento de la próxima generación de sus modelos GPT, la empresa ya está experimentando con la generación de datos sintéticos, pero el jefe de OpenAI, Sam Altman, expresa dudas sobre su efectividad y preocupación por la dependencia de dichos datos.