¿Menos datos significan conclusiones más inteligentes?
Expertos en inteligencia artificial de la Universidad de Carolina del Norte han identificado una deficiencia clave en los sistemas actuales de aprendizaje automático y han desarrollado un método para corregirla. Se trata de las llamadas "correlaciones espurias", situaciones en las que la IA extrae conclusiones basándose en características irrelevantes o aleatorias de los objetos o fenómenos que debe analizar, ignorando los atributos realmente importantes.
Es como si una persona intentara determinar la profesión de un transeúnte únicamente por el color de su ropa, sin fijarse en señales más evidentes como el uniforme, las herramientas o el contexto de la situación. Y el problema es más complejo de lo que parece, ya que los algoritmos pueden identificar y aprovechar conexiones que para nosotros pasan completamente desapercibidas.
"La singularidad de nuestro método es que puede aplicarse incluso cuando no sabemos en qué correlaciones espurias se está apoyando la IA", explica Jung-Eun Kim, autora principal del estudio y profesora de informática. "Si los atributos problemáticos ya son conocidos, nuestra tecnología los eliminará de manera eficiente. Y cuando el rendimiento del sistema disminuye por razones desconocidas, este método detectará posibles correlaciones espurias y las neutralizará".
Durante su entrenamiento, la inteligencia artificial busca siempre el camino más fácil para resolver una tarea, un fenómeno conocido como "tendencia a la simplificación". Tomemos un ejemplo concreto: si entrenamos una red neuronal para reconocer perros en fotografías, primero necesitamos un conjunto de datos con imágenes etiquetadas como "perro" o "no perro".
A lo largo del entrenamiento, el modelo debería identificar las características clave que permiten reconocer un perro: la forma de las orejas, el pelaje, la estructura del cuerpo. Sin embargo, si en la mayoría de las imágenes del conjunto de datos los perros llevan collar, la IA podría optar por el camino más sencillo. Para ella, el collar es un elemento fácilmente identificable, con bordes y formas definidas, mientras que atributos más complejos, como la textura del pelaje o la silueta del animal, requieren un análisis más sofisticado.
"El resultado es que el sistema puede comenzar a usar la presencia del collar como su principal criterio para identificar perros", explica el profesor Kim. "Esto llevaría a errores como clasificar erróneamente a cualquier animal con collar, incluso gatos, como si fueran perros".
Hasta ahora, los investigadores han intentado abordar este problema identificando primero los atributos engañosos y luego modificando los datos de entrenamiento. Por ejemplo, podrían agregar más fotos de perros sin collar o darles mayor peso en el entrenamiento. Sin embargo, el nuevo estudio ha demostrado que, en muchos casos, es imposible determinar qué datos están causando el error, lo que hace que los métodos tradicionales sean ineficaces.
El equipo de Kim decidió centrarse en el análisis del comportamiento de la IA durante su fase de entrenamiento. "En cualquier conjunto de datos hay ejemplos con distintos niveles de dificultad: desde los más sencillos hasta los más confusos. Podemos medir la complejidad de cada muestra observando cómo reacciona el modelo a ellas mientras aprende", explica Kim.
Además, los investigadores descubrieron un patrón interesante: las muestras más difíciles de procesar suelen contener ruido y ambigüedades, lo que aumenta la probabilidad de que la red neuronal se base en señales aleatorias e irrelevantes, afectando negativamente su desempeño general.
"Hicimos la hipótesis de que, eliminando una pequeña fracción de los ejemplos más complejos del conjunto de entrenamiento, también podríamos deshacernos de los datos que contienen correlaciones problemáticas", señala la investigadora. "Este enfoque permite romper con las correlaciones espurias sin afectar significativamente la capacidad de aprendizaje del sistema".
Las pruebas confirmaron la efectividad del método: logró mejorar el rendimiento de la IA incluso en comparación con estudios previos donde los datos defectuosos ya eran conocidos y se corregían manualmente. Este descubrimiento podría tener un impacto significativo en el desarrollo del aprendizaje automático, haciendo que la inteligencia artificial sea más confiable y predecible.
El estudio será presentado en la Conferencia Internacional sobre Representación del Aprendizaje (ICLR 2025), que se celebrará en Singapur del 24 al 28 de abril. Los investigadores esperan que su método ayude a desarrollar modelos más avanzados, capaces de comprender verdaderamente la esencia de los problemas en lugar de depender de coincidencias aleatorias.