Los jailbreak lo son todo: Anthropic desafió a los hackers y ganó

Los jailbreak lo son todo: Anthropic desafió a los hackers y ganó

El nuevo método de protección resultó ser mucho más eficaz de lo que nadie esperaba.

image

La empresa estadounidense Anthropic ha presentado un nuevo método de protección para los modelos de lenguaje a gran escala (LLM) contra los llamados "jailbreaks", técnicas para eludir las restricciones incorporadas que pueden hacer que la IA realice acciones prohibidas.

La mayoría de los LLM están entrenados para rechazar respuestas a solicitudes peligrosas o no éticas. Por ejemplo, Claude de Anthropic no responde preguntas sobre armas químicas, y DeepSeek R1 evita discutir sobre política china. Sin embargo, existen múltiples formas de sortear estas restricciones, desde escenarios de rol hasta manipulaciones ingeniosas del texto de la solicitud, como el uso inusual de mayúsculas o la sustitución de letras por números.

Estos ataques se conocen como "adversariales" y son intentos deliberados de hacer que la red neuronal genere una respuesta inesperada. A pesar de décadas de investigación, aún no se ha logrado proteger completamente los modelos contra los jailbreaks.

Anthropic ha tomado un enfoque diferente: en lugar de modificar los propios modelos, la empresa ha desarrollado una barrera externa que bloquea los intentos de ataque en la fase de solicitud. Se ha prestado especial atención a los llamados "jailbreaks universales", técnicas capaces de desactivar por completo los mecanismos de seguridad. Uno de los ejemplos más conocidos es "Do Anything Now" (DAN), que obliga a la IA a "olvidar" sus restricciones incorporadas.

Para crear su sistema de filtrado, Anthropic utilizó un enfoque basado en datos sintéticos. Claude generó miles de pares de solicitudes y respuestas permitidas y prohibidas, que luego fueron modificadas teniendo en cuenta los métodos populares entre los atacantes. Estos datos sirvieron como base para entrenar un filtro que detecta y bloquea interacciones potencialmente peligrosas.

La eficacia de la tecnología se evaluó de dos maneras. En primer lugar, Anthropic organizó un programa de recompensas por errores, ofreciendo 15.000 dólares a cualquiera que pudiera eludir la protección y hacer que Claude respondiera a 10 preguntas prohibidas. Durante 3.000 horas de pruebas, 183 participantes no lograron superar el filtro en más de la mitad de los casos.

En la segunda prueba, la empresa sometió el sistema a 10.000 ataques automatizados que imitaban técnicas de jailbreak. Sin protección, el 86% de los ataques tuvieron éxito, pero con el filtro, esta cifra se redujo al 4,4%.

"Este nivel de pruebas es poco común", señaló Alex Robey, de la Universidad Carnegie Mellon, quien estudia los jailbreaks. También ha desarrollado su propio método de protección, SmoothLLM, que introduce ruido estadístico para interrumpir la explotación de vulnerabilidades en los modelos. Cree que la mejor seguridad se logra combinando varios enfoques.

A pesar de los resultados impresionantes, la protección de Anthropic no está exenta de inconvenientes. Robey señala que el filtro a veces bloquea preguntas inocuas sobre biología y química. Además, el funcionamiento del sistema requiere un 25% más de potencia computacional, lo que aumenta el costo de su uso.

Los expertos coinciden en que la carrera entre los desarrolladores de IA y los aficionados a los jailbreaks aún no ha terminado. Por ejemplo, Yuekan Li, de la Universidad de Nueva Gales del Sur, señala que nuevos métodos, como el cifrado de la solicitud mediante la sustitución de letras, podrían eludir la protección existente.

Dennis Klinkhammer, de la Universidad de Ciencias Aplicadas FOM en Colonia, destaca la importancia del uso de datos sintéticos: "Esto permite actualizar rápidamente los mecanismos de protección para adaptarse a nuevas amenazas".

Anthropic sigue perfeccionando la tecnología e invita a investigadores a probarla. "No afirmamos que el sistema sea inexpugnable", dice Mrinank Sharma, jefe del equipo. "La cuestión es cuántos esfuerzos se necesitarán para eludir la protección. Si la barrera es lo suficientemente alta, la mayoría ni siquiera lo intentará".

Tu privacidad está muriendo lentamente, pero nosotros podemos salvarla

¡Únete a nosotros!