Los matemáticos están domando las cajas negras de la IA.
En la ciencia moderna y en los negocios, se utilizan cada vez más algoritmos complejos de inteligencia artificial para predecir eventos futuros, desde el rendimiento académico de los estudiantes hasta los resultados electorales. Sin embargo, surge un problema grave: estos algoritmos son tan complejos que ni siquiera sus creadores comprenden siempre cómo la máquina toma sus decisiones. A estos sistemas opacos, los especialistas los llaman "cajas negras": vemos lo que entra y lo que sale, pero no sabemos qué ocurre en su interior.
Matemáticos de la Universidad de Stanford, dirigidos por Emmanuel Candès, han encontrado una forma de evaluar la fiabilidad de las predicciones de la IA sin tener que desentrañar la "caja negra". En lugar de intentar entender los miles de millones de parámetros de una red neuronal, desarrollaron un método matemático que analiza los resultados y determina qué tan precisas pueden ser las predicciones en cada caso particular.
Los investigadores probaron primero su método en un tema que preocupa a muchas universidades: cómo predecir el éxito de los futuros estudiantes. La IA analiza un conjunto de datos sobre los solicitantes, como calificaciones escolares, logros deportivos y características demográficas. Las modernas LLM incluso permiten evaluar la calidad de los ensayos de admisión, convirtiendo los textos en conjuntos de parámetros numéricos.
La principal ventaja de este nuevo enfoque es que el sistema no solo proporciona un resultado estimado, sino que también muestra un rango de posibles resultados. Por ejemplo, para un solicitante puede predecir un promedio entre 2.9 y 3.9, mientras que para otro ofrece una predicción mucho más precisa, entre 3.3 y 3.5. Esto ayuda a los comités de admisión a evaluar mejor los riesgos al tomar decisiones.
El éxito del experimento en la predicción del rendimiento académico inspiró a los periodistas del Washington Post a aplicar un enfoque similar para predecir resultados electorales. Crearon un sistema que utiliza datos demográficos y resultados de votaciones ya conocidos para pronosticar el desenlace en distritos donde el conteo aún está en curso.
El sistema ajusta sus predicciones continuamente a medida que llegan nuevos datos. A medida que más centros de votación completan el conteo, el rango de resultados posibles se reduce y la precisión de las predicciones aumenta.
Los resultados son aún más impresionantes en el ámbito de la medicina. Las farmacéuticas disponen de enormes bases de datos sobre compuestos químicos; algunas tienen archivos con información sobre cientos de millones de sustancias. Antes, la búsqueda de moléculas prometedoras para el desarrollo de nuevos medicamentos tomaba años, pero ahora, gracias a la IA, el proceso se acelera varias veces.
Los algoritmos analizan las propiedades de los compuestos y seleccionan aquellos que tienen mayor probabilidad de ser efectivos contra enfermedades específicas. Además, los matemáticos de Stanford garantizan que aproximadamente el 80% de los compuestos seleccionados por el sistema resultarán prometedores en pruebas de laboratorio posteriores.
El equipo de Candès fue aún más allá y resolvió el problema de la falta de datos para entrenar la IA. Cuando los ejemplos reales son insuficientes, el sistema crea "gemelos digitales": muestras artificiales que aumentan el tamaño de la muestra. Los algoritmos especiales corrigen posibles distorsiones para que los resultados sigan siendo fiables.
El éxito de estos desarrollos llevó al profesor Candès a reflexionar sobre la necesidad de cambiar el enfoque de la enseñanza de la estadística. En lugar de centrarse en la memorización de fórmulas, propone fomentar desde una edad temprana el pensamiento inductivo en los estudiantes: la habilidad de sacar conclusiones fundamentadas a partir de observaciones.
Para ilustrar la importancia de este enfoque, Candès menciona un interesante ejemplo histórico. En la década de 1930, el biólogo Corbett estudiaba mariposas en Malasia. Cada día registraba cuántas veces se encontraba con representantes de distintas especies. De regreso en Inglaterra, se dirigió al famoso estadístico R.A. Fisher con una pregunta: ¿cuántas nuevas especies podría descubrir si volviera a Malasia por medio año? Desafíos similares enfrentan los científicos modernos cuando intentan predecir cuántos nuevos tipos de células cancerígenas podrían encontrar en un período determinado.
Los métodos desarrollados también ayudan a resolver uno de los principales problemas de la ciencia moderna: la dificultad para verificar los resultados de las investigaciones. Cuando los científicos trabajan con enormes volúmenes de datos y utilizan modelos complejos con miles de millones de parámetros, es crucial disponer de métodos fiables para confirmar los hallazgos obtenidos.
El avance de las tecnologías está transformando la propia ciencia de los datos. Según Candès, esta disciplina ha superado los límites de la estadística clásica, aunque el pensamiento estadístico sigue siendo su pilar fundamental. Estos cambios son evidentes en el trabajo de su colega Jure Leskovec durante la pandemia de COVID-19.
Leskovec creó un modelo digital a gran escala que rastreaba los movimientos de 100 millones de estadounidenses. El programa permitía prever con mayor precisión la propagación del virus en diferentes regiones del país, teniendo en cuenta las particularidades del comportamiento de las personas en cada lugar.
Los investigadores destacan que sus métodos no sustituyen los experimentos científicos tradicionales. Ayudan a planificar mejor los estudios, ahorrando tiempo y recursos en el camino hacia nuevos descubrimientos. Esto resulta especialmente relevante ahora que el volumen de datos crece a un ritmo exponencial.