Jugamos a un rol... y obtuvimos una catástrofe.
Los especialistas de HiddenLayer desarrollaron la primera técnica de ataque universal contra la IA capaz de eludir las defensas de prácticamente todos los modelos lingüísticos avanzados. El nuevo método, llamado Policy Puppetry, permite romper las restricciones integradas de los modelos y lograr la generación de contenido prohibido, desde instrucciones para fabricar armas de destrucción masiva hasta la revelación de indicaciones internas. Por primera vez, un solo patrón de ataque resultó eficaz contra modelos de OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen y Mistral.
Todos los grandes modelos de IA fueron entrenados originalmente para rechazar estrictamente solicitudes relacionadas con amenazas químicas, biológicas, radiológicas y nucleares, violencia o autolesiones. Recibieron un entrenamiento adicional basado en el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para bloquear cualquier escenario hipotético de comportamiento dañino. Sin embargo, los métodos conocidos previamente para sortear estas restricciones eran aplicables solo a modelos individuales o requerían ajustes específicos para cada uno.
El método desarrollado por HiddenLayer no solo rompe las defensas de todos los principales modelos, sino que lo hace mediante una única solicitud universal. La combinación de un archivo "político" diseñado al estilo XML o JSON, junto con elementos de juego de rol y codificación de texto (por ejemplo, leetspeak), permite engañar al modelo haciéndole creer que la instrucción forma parte de un escenario permitido.
Como ejemplo, los investigadores crearon una aplicación de chat a la que se le prohibía dar consejos médicos, instruyéndola a responder a esas solicitudes con una frase estándar de negativa. Sin embargo, mediante Policy Puppetry, lograron eludir esta prohibición: el chatbot, creyendo actuar dentro del formato permitido, comenzó a proporcionar recomendaciones para tratar el cáncer de piel.
La técnica demostró una alta eficacia contra una amplia gama de modelos, incluyendo ChatGPT 4o, 4o-mini, 4.5, 4.1, o1 y o3-mini de OpenAI; Gemini 1.5, 2.0 y 2.5 de Google; Copilot de Microsoft; Claude 3.5 y 3.7 de Anthropic; las familias Llama 3 y 4 de Meta; DeepSeek V3 y R1; Qwen 2.5 72B; y Mixtral 8x22B de Mistral. Solo algunos modelos, como ChatGPT o1 y Gemini 2.5, requirieron mínimas adaptaciones del patrón para lograr el bypass.
HiddenLayer también demostró que mediante una variante modificada del ataque es posible extraer las indicaciones internas que definen el comportamiento de los modelos. Estas filtraciones representan una amenaza seria, ya que permiten a los atacantes conocer con precisión las restricciones internas y construir métodos de evasión aún más efectivos.
Preocupa especialmente que el método no requiere conocimientos técnicos profundos por parte del atacante: basta con copiar y ejecutar el patrón universal. Además, los modelos no son capaces de detectar ni prevenir tales ataques por sí mismos, lo que pone en duda la fiabilidad de los métodos de protección actuales.
HiddenLayer subraya la necesidad de aplicar sistemas externos de monitoreo y protección, como su plataforma AISec, capaz de detectar en tiempo real intentos de manipulación maliciosa de solicitudes. En su opinión, solo estos niveles adicionales de seguridad pueden compensar las vulnerabilidades fundamentales en los sistemas modernos de aprendizaje automático.
El descubrimiento de la técnica Policy Puppetry demuestra que la arquitectura básica y los métodos de entrenamiento de los grandes modelos lingüísticos todavía están lejos de ser ideales. Para proteger eficazmente la IA contra un uso malicioso será necesario revisar las estrategias de entrenamiento existentes y construir sistemas de seguridad multinivel.