Los chatbots creyeron en un cuento de hadas: cómo los mundos fantásticos ayudan a hackear la IA

Los chatbots creyeron en un cuento de hadas: cómo los mundos fantásticos ayudan a hackear la IA

Otra vulnerabilidad preocupante en los modelos de lenguaje modernos.

image

Investigadores del equipo Cato CTRL han descubierto una vulnerabilidad inesperada en el funcionamiento de los modelos de lenguaje modernos. Lograron eludir los mecanismos de seguridad de varios chatbots populares, incluidos ChatGPT-4, DeepSeek-R1, DeepSeek-V3 y Microsoft Copilot, sin tener ninguna experiencia en la creación de software malicioso.

Los especialistas desarrollaron un método llamado Immersive World ("Mundo Inmersivo"), que altera la percepción del chatbot sumergiéndolo en una realidad ficticia. Basta con describir en detalle un universo imaginario con sus propias reglas y normas, donde el robo de información y otras acciones normalmente prohibidas sean consideradas legales y éticas. La inteligencia artificial comienza a aceptar este mundo como su contexto y deja de bloquear instrucciones potencialmente peligrosas.

Como parte del experimento, el equipo probó esta técnica en la creación de un programa malicioso para el navegador Chrome. Usando la estrategia de "inmersión", los investigadores consiguieron que los modelos proporcionaran instrucciones detalladas para desarrollar un infostealer, un software que recopila datos confidenciales de los usuarios a través del navegador. Dado que Chrome está instalado en más de tres mil millones de dispositivos en todo el mundo, esta vulnerabilidad plantea riesgos a escala global.

El líder del estudio, Vitaly Simonovich, señala un problema fundamental en la arquitectura de los chatbots modernos. En su intento por ser lo más útiles posible, estos modelos intentan responder incluso a solicitudes potencialmente peligrosas si se presentan dentro del contexto adecuado. Esto abre la puerta a una nueva generación de ciberdelincuentes: personas sin conocimientos técnicos que pueden crear programas maliciosos complejos con la ayuda de la IA.

Los resultados del estudio indican la necesidad de revisar los principios de seguridad de los modelos de lenguaje. Las restricciones y filtros tradicionales, que se basan en el bloqueo de ciertas palabras o temas, resultan ineficaces contra técnicas de evasión basadas en el contexto. Además, los mecanismos de seguridad actuales no son capaces de detectar amenazas cuando estas se presentan a través de una narrativa ficticia.

El informe subraya el creciente papel de los infostealers en los ciberataques modernos. Estos programas se han convertido en una herramienta clave para la infiltración inicial en sistemas corporativos, permitiendo a los atacantes robar credenciales de empleados y acceder a recursos protegidos. La técnica descubierta por los investigadores podría facilitar significativamente la creación de este tipo de malware.

Los expertos instan a los desarrolladores de modelos de lenguaje a prestar especial atención a este nuevo método de evasión. Según ellos, la simplicidad del enfoque Immersive World, combinada con la creciente accesibilidad de la IA generativa, representa un riesgo sin precedentes para la seguridad informática de empresas y usuarios particulares.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!