FrontierMath: Epoch AI pone a la IA en jaque matemático

FrontierMath: Epoch AI pone a la IA en jaque matemático

Una nueva prueba revela las verdaderas capacidades de los modelos más avanzados.

image

La organización investigadora Epoch AI ha presentado una nueva prueba matemática, FrontierMath, que ha dejado perplejos a los modelos de inteligencia artificial más avanzados. Los resultados son sorprendentes: incluso los sistemas más potentes como GPT-4 y Claude 3.5 Sonnet resuelven menos del 2% de los problemas.

En el desarrollo del conjunto de pruebas participaron más de 60 matemáticos de las principales instituciones científicas. Cada problema fue sometido a una minuciosa revisión para garantizar la precisión de las formulaciones y la ausencia de ambigüedades. Alrededor del 5% de los problemas requirieron ajustes durante el proceso de revisión, lo cual es un indicador típico para grandes proyectos en el ámbito del aprendizaje automático.

FrontierMath se distingue radicalmente de las pruebas existentes debido a que sus problemas no son públicos. Este enfoque elimina la posibilidad de "contaminación de datos": una situación en la que los modelos de IA son entrenados previamente con ejemplos de pruebas, lo que inflaría artificialmente sus resultados, creando una ilusión de comprensión profunda de las matemáticas.

Los problemas abarcan un amplio espectro de disciplinas, desde teoría computacional de números hasta geometría algebraica abstracta. El nivel de dificultad es tan alto que incluso el ganador de la Medalla Fields, Terence Tao, admitió que resolverlos solo está al alcance de especialistas altamente especializados o de un equipo conformado por un estudiante de posgrado y una IA equipada con software especializado.

También sorprende el contraste entre los resultados de FrontierMath y otras pruebas. Mientras que en benchmarks más sencillos como GSM8K y MATH, los modelos de lenguaje actuales alcanzan una precisión superior al 90%, aquí son prácticamente ineficaces, aun cuando se les permite utilizar Python para verificar sus respuestas.

El matemático Evan Chen explicó en su blog en qué se diferencia FrontierMath de los problemas típicos de olimpiadas. En la Olimpiada Internacional de Matemáticas, los participantes no requieren conocimientos especializados profundos ni cálculos complejos; lo importante es la creatividad y encontrar soluciones no convencionales. En FrontierMath, por el contrario, además del pensamiento creativo, se exige al evaluado poseer conocimientos y habilidades especializadas.

Los creadores de la prueba diseñaron un sistema para prevenir respuestas al azar. La respuesta debe ser o bien un número entero gigantesco, o una construcción matemática tan compleja que la probabilidad de adivinar correctamente sea inferior al uno por ciento. Sin embargo, no se requiere presentar una demostración matemática en la respuesta: basta con crear un programa que funcione.

El fracaso de los principales sistemas de IA en esta prueba revela mucho. Según los expertos, los modelos de lenguaje actuales no saben aplicar los principios que conocen a situaciones nuevas y tienen dificultades para generalizar los conocimientos adquiridos.

El equipo de Epoch AI no tiene intención de detenerse aquí. En los próximos meses, presentarán nuevos ejemplos de problemas a la comunidad científica para ayudar a los desarrolladores a mejorar sus sistemas de inteligencia artificial. A partir de ahora, las pruebas de las nuevas versiones de los modelos en FrontierMath se realizarán de forma regular.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Suscribirse