La IA no pasó el examen de historia.
Científicos llevaron a cabo una investigación única para evaluar cómo la inteligencia artificial se desempeña en el ámbito de las ciencias históricas. Durante el estudio, se basaron en la base de datos Seshat Global History Databank , que el equipo dirigido por Peter Turchin recopiló durante más de diez años. Esta base contiene información detallada sobre 600 civilizaciones de todo el mundo: más de 36,000 hechos históricos respaldados por 2,700 fuentes científicas.
Peter Turchin lidera un grupo de investigación en el centro científico Complexity Science Hub, donde estudia el desarrollo y declive de diversas sociedades antiguas. En el estudio también participó la especialista en tecnologías computacionales María del Río-Chanona. Decidieron comprobar hasta qué punto los modelos lingüísticos modernos, como ChatGPT-4, Llama y Gemini, pueden ser útiles para historiadores y arqueólogos. Según Turchin, aunque la inteligencia artificial ya resuelve con éxito algunas tareas complejas, como asistir a abogados en su trabajo, todavía encuentra dificultades para comprender cómo vivían las sociedades antiguas. Este problema es especialmente evidente cuando se trata de regiones fuera de América del Norte y Europa Occidental.
Para la investigación, los científicos diseñaron pruebas con el nivel de complejidad que suelen enfrentar los graduados en historia y los historiadores profesionales. Los resultados se presentaron en la conferencia NeurIPS. Incluso el mejor modelo, GPT-4 Turbo, solo logró responder correctamente al 46% de las preguntas, que consistían en elegir entre cuatro opciones. Aunque esto supera el azar (25% de probabilidad), la IA claramente carece de una comprensión profunda de la historia mundial.
María del Río-Chanona, autora principal del estudio y profesora del University College de Londres, expresó su decepción con los resultados, ya que esperaba mucho más. Según ella, el problema principal no es solo saber hechos, sino también interpretarlos correctamente, lo cual requiere comprender el contexto y las conexiones entre los eventos.
Durante las pruebas, los modelos no solo respondieron preguntas sobre hechos históricos específicos. También debían determinar si una afirmación histórica podía confirmarse directamente o solo a través de evidencias indirectas. Así, los científicos evaluaron si la IA podía analizar la historia a nivel experto.
Al comparar las respuestas por regiones, los investigadores descubrieron patrones interesantes. Los sistemas de OpenAI se desempeñaron mejor en la historia de América Latina y el Caribe, mientras que los modelos de Llama fueron más precisos al responder sobre América del Norte. Sin embargo, todas las IA tuvieron dificultades con la historia de África subsahariana, y los modelos de Llama también mostraron un bajo conocimiento de la historia de Oceanía. Según los científicos, esto se debe a datos de entrenamiento desequilibrados, donde algunas regiones recibieron demasiada atención mientras que otras fueron ignoradas.
También sorprendieron los resultados del conocimiento de diferentes períodos históricos. Los modelos lingüísticos respondieron con mayor confianza sobre la historia antigua, especialmente del período entre 8000 y 3000 a.C. Sin embargo, los eventos posteriores al año 1500 d.C. resultaron ser mucho más complicados para ellos.
El análisis temático también reveló fortalezas y debilidades de la IA. Mostraron un buen desempeño en sistemas legales y estructuras sociales de distintas sociedades. Pero cuando se trataba de discriminación y movilidad social, los modelos comenzaron a confundirse.
GPT-4 Turbo obtuvo el mejor resultado entre todos los sistemas, respondiendo correctamente al 46% de las preguntas, mientras que Llama-3.1-8B alcanzó solo un 33.6%.
Los investigadores ya tienen planes para los próximos pasos. Quieren ampliar la base de datos añadiendo más información sobre las regiones del Sur Global, lo que ayudará a equilibrar la cobertura geográfica. En el futuro, planean hacer las pruebas más complejas para comprender mejor los límites de la inteligencia artificial en el estudio de la historia. Además, probarán los modelos lingüísticos más recientes, incluida la nueva tecnología o3, para analizar el desarrollo de esta tecnología.