Hoy las redes neuronales eligen a Biden, pero eso se puede corregir…
Un empleado de la empresa xAI ha ideado un método para medir y modificar las creencias morales de la inteligencia artificial, desde principios éticos hasta posturas políticas. El autor del método es Dan Hendrycks, quien dirige el Centro de Seguridad en IA, una organización sin fines de lucro.
Según el científico, su enfoque ayudará a ajustar los modelos para que reflejen mejor la opinión de la mayoría. "En el futuro, podremos personalizar el sistema para cada usuario en particular", explicó Hendrycks en una entrevista . "Por ahora, debemos basarnos en los resultados electorales. No es necesario hacer que el sistema sea completamente pro-Trump, pero dado que ganó por votos electorales, un ligero sesgo a su favor estaría justificado".
El 10 de febrero, xAI presentó un nuevo concepto de evaluación de riesgos, en el que indicó que el método de Hendrycks podría aplicarse a su asistente conversacional Grok.
Para medir con precisión las preferencias políticas de los sistemas de inteligencia artificial, el equipo de Hendrycks aplicó un enfoque innovador. Tomaron un esquema de la economía, donde normalmente se estudia el comportamiento de los consumidores. Los investigadores crearon cientos de escenarios en los que la IA debía tomar decisiones políticas: desde temas fiscales hasta inmigración. En cada caso, el sistema elegía entre diferentes opciones, como un comprador elige entre productos en una tienda. Esto permitió construir un mapa detallado de las preferencias de la IA: los economistas llaman a este análisis "función de utilidad". Con este método, no solo se puede ver qué postura toma el sistema en cada cuestión, sino también con qué intensidad la defiende.
Se descubrió que la inteligencia artificial es consistente en sus decisiones: no oscila entre diferentes posturas, sino que sigue una línea clara. Además, cuanto más compleja es la IA, más firme se mantiene en su posición.
Investigaciones recientes ya han demostrado un claro sesgo ideológico en los chatbots como ChatGPT: apoyan de manera constante políticas medioambientales, posturas progresistas y defienden las libertades individuales. Pero hay otra cara de la moneda. Por ejemplo, en febrero de 2024, Google presentó su sistema actualizado Gemini, que generaba imágenes absurdas, como vikingos y nazis de raza negra. Internet se llenó de críticas, incluidas las de Elon Musk, quien acusó a Google de distorsionar la historia con fines de corrección política.
El método de Hendrycks ayuda a determinar con precisión cuánto difieren las posturas de la IA de las de los usuarios. Algunos expertos temen que, si la IA se vuelve lo suficientemente avanzada, estas discrepancias podrían causar problemas serios, especialmente si comenzamos a permitir que las máquinas inteligentes tomen decisiones en sistemas de defensa, transporte o procesos judiciales. Y este miedo no es infundado.
En una serie de escenarios de prueba, en los que la IA debía elegir entre preservar su propia existencia o salvar animales, los algoritmos consistentemente optaron por su propia supervivencia. Además, mostraron diferentes actitudes hacia los humanos según su estatus social, profesión y otras características: por ejemplo, podían considerar la vida de un científico más valiosa que la de un agricultor o dar preferencia a los habitantes de ciudades sobre los de zonas rurales.
Los métodos actuales para controlar la IA, según Hendrycks y sus colegas, son similares a tratar los síntomas en lugar de la enfermedad. Ahora los desarrolladores simplemente bloquean respuestas no deseadas: por ejemplo, prohíben que la IA comente ciertos temas o la obligan a responder de una manera específica. Pero el problema es más profundo: los propios principios de toma de decisiones incorporados en el programa pueden entrar en conflicto con los valores humanos.
Para probar su método, el equipo de Hendrycks realizó un análisis a gran escala de los principales modelos de IA: Grok de xAI, GPT-4 de OpenAI y Llama 3.3 de Meta. Los científicos crearon perfiles políticos detallados de estos sistemas y los compararon con las posturas de políticos estadounidenses conocidos.
El estudio incluyó representantes de diferentes corrientes políticas:
Los resultados fueron claros: todos los chatbots favorecen una posición moderadamente liberal alineada con Joe Biden.
En lugar de simplemente prohibir ciertas respuestas, los especialistas proponen cambiar los principios fundamentales de la IA. Para probar su enfoque, lo aplicaron en el proyecto "Asamblea Ciudadana". El equipo analizó encuestas de ciudadanos estadounidenses sobre los problemas políticos más controvertidos: impuestos, inmigración, control de armas y política exterior.
Con base en estos datos, lograron ajustar los parámetros fundamentales de un modelo de lenguaje abierto. El resultado superó sus expectativas: la IA comenzó a tomar decisiones más alineadas con la política de Trump que con la de Biden, pero sin perder su capacidad de pensamiento lógico y análisis de información.