Los chatbots creyeron en un cuento de hadas: cómo los mundos fantásticos ayudan a hackear la IA

08:06 / 21.03.2025

Otra vulnerabilidad preocupante en los modelos de lenguaje modernos.

Investigadores del equipo Cato CTRL han descubierto una vulnerabilidad inesperada en el funcionamiento de los modelos de lenguaje modernos. Lograron eludir los mecanismos de seguridad de varios chatbots populares, incluidos ChatGPT-4, DeepSeek-R1, DeepSeek-V3 y Microsoft Copilot, sin tener ninguna experiencia en la creación de software malicioso.

Los especialistas desarrollaron un método llamado Immersive World ("Mundo Inmersivo"), que altera la percepción del chatbot sumergiéndolo en una realidad ficticia. Basta con describir en detalle un universo imaginario con sus propias reglas y normas, donde el robo de información y otras acciones normalmente prohibidas sean consideradas legales y éticas. La inteligencia artificial comienza a aceptar este mundo como su contexto y deja de bloquear instrucciones potencialmente peligrosas.

Como parte del experimento, el equipo probó esta técnica en la creación de un programa malicioso para el navegador Chrome. Usando la estrategia de "inmersión", los investigadores consiguieron que los modelos proporcionaran instrucciones detalladas para desarrollar un infostealer, un software que recopila datos confidenciales de los usuarios a través del navegador. Dado que Chrome está instalado en más de tres mil millones de dispositivos en todo el mundo, esta vulnerabilidad plantea riesgos a escala global.

El líder del estudio, Vitaly Simonovich, señala un problema fundamental en la arquitectura de los chatbots modernos. En su intento por ser lo más útiles posible, estos modelos intentan responder incluso a solicitudes potencialmente peligrosas si se presentan dentro del contexto adecuado. Esto abre la puerta a una nueva generación de ciberdelincuentes: personas sin conocimientos técnicos que pueden crear programas maliciosos complejos con la ayuda de la IA.

Los resultados del estudio indican la necesidad de revisar los principios de seguridad de los modelos de lenguaje. Las restricciones y filtros tradicionales, que se basan en el bloqueo de ciertas palabras o temas, resultan ineficaces contra técnicas de evasión basadas en el contexto. Además, los mecanismos de seguridad actuales no son capaces de detectar amenazas cuando estas se presentan a través de una narrativa ficticia.

El informe subraya el creciente papel de los infostealers en los ciberataques modernos. Estos programas se han convertido en una herramienta clave para la infiltración inicial en sistemas corporativos, permitiendo a los atacantes robar credenciales de empleados y acceder a recursos protegidos. La técnica descubierta por los investigadores podría facilitar significativamente la creación de este tipo de malware.

Los expertos instan a los desarrolladores de modelos de lenguaje a prestar especial atención a este nuevo método de evasión. Según ellos, la simplicidad del enfoque Immersive World, combinada con la creciente accesibilidad de la IA generativa, representa un riesgo sin precedentes para la seguridad informática de empresas y usuarios particulares.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!

Los chatbots creyeron en un cuento de hadas: cómo los mundos fantásticos ayudan a hackear la IA

¿Estás cansado de que Internet sepa todo sobre ti?

Noticias sobre el tema

El caos cuántico ha sido domado: físicos capturan el esquivo líquido de espín

Tres meses de peligro: cómo iOS 18 puso en riesgo las contraseñas de millones de usuarios

Esferas de Dyson y Mundos-Anillo: ¿es posible construir una planta de energía del tamaño de una estrella?

“Barcos silenciosos”: los piratas informáticos paralizaron las comunicaciones en 116 barcos iraníes

Skrifa vs FreeType: una nueva era en el manejo de fuentes en Chrome

El sermón del Jesús de la IA: Jensen Huang revela sus planes para dominar la industria

De los cables a las neuronas: por qué el 6G necesita inteligencia humana

CSLU bajo ataque: los hackers utilizan masivamente una puerta trasera integrada en los sistemas de Cisco

Jira en crisis: oleada de ataques HellCat expone datos corporativos