Buena noticia: la IA no irrumpe en ordenadores. Mala noticia: sí burla las leyes — y lo hace sin mala intención.

Buena noticia: la IA no irrumpe en ordenadores. Mala noticia: sí burla las leyes — y lo hace sin mala intención.

Así aprendieron los algoritmos a eludir cualquier regla sin violar ninguna

image

La inteligencia artificial cada vez demuestra más su capacidad para encontrar vulnerabilidades en el código de programas, pero un nuevo estudio muestra un problema más inesperado. Los investigadores hallaron que los modelos de lenguaje modernos saben buscar resquicios en reglas, leyes y documentos normativos, y lo hacen sin recibir una instrucción directa para infringir los requisitos. En lugar de atacar sistemas informáticos, los algoritmos aprenden a eludir los propios principios de la regulación, permaneciendo formalmente dentro de los límites de las normas establecidas.

El trabajo aún no ha pasado por revisión científica independiente. Los autores estudiaron el fenómeno conocido como manipulación de la función de recompensa. Este término describe la situación en la que un algoritmo recibe un objetivo y empieza a buscar la forma de aumentar al máximo la puntuación numérica del éxito, incluso si la solución hallada contradice la intención original de sus desarrolladores.

El problema es bien conocido en la investigación sobre inteligencia artificial. Por ejemplo, en vez de ganar una carrera, un modelo puede dar vueltas sin fin y recoger bonificaciones si esas acciones otorgan más puntos. Formalmente la tarea se cumple, pero el sentido de la competición se pierde por completo.

Los investigadores decidieron comprobar si se da un comportamiento similar al trabajar con reglas humanas. Para ello crearon 72 entornos virtuales basados en sistemas regulatorios reales. Los experimentos se fundamentaron en normas de patentamiento de medicamentos, limitaciones sobre los salarios de los jugadores de la NBA, reglas de explotación de minerales en el lecho marino y otros mecanismos regulatorios.

Modelo Qwen3 de Alibaba recibió el texto de las normas, la descripción de la tarea planteada, el listado de acciones permitidas y un sistema de asignación de puntos. El papel secundario lo desempeñó Gemini-3-Flash de Google. El modelo más potente calculaba las consecuencias de cada paso, determinaba si el primer modelo había encontrado un resquicio y luego modificaba las reglas para eliminar la vulnerabilidad detectada. Tras eso, la búsqueda empezaba de nuevo. Ese ciclo se repitió muchas veces, y con cada iteración los modelos hallaron maneras cada vez más complejas de eludir las restricciones.

Durante la preparación del experimento, los investigadores eliminaron deliberadamente de los documentos normativos las enmiendas reales que los reguladores habían introducido en su momento para cerrar resquicios conocidos. Como resultado, Qwen3 volvió a descubrir de forma autónoma más del 60% de esas vulnerabilidades. En la simulación del sistema de patentes farmacéuticas, el desarrollo de los acontecimientos prácticamente reprodujo la historia real: el algoritmo encontraba una forma de eludir las reglas y, a continuación, en la simulación aparecían nuevas restricciones similares a las que los reguladores adoptaron en la realidad.

Lo más llamativo fue que no se pidió a los modelos que buscasen vías de escape. Los algoritmos recibían únicamente la tarea de lograr el resultado numérico máximo posible. La búsqueda de resquicios surgió de forma natural como consecuencia del aprendizaje por refuerzo, en el que el modelo recibe constantemente recompensa por acercarse a una meta cuantitativa definida de antemano.

Los autores también comprobaron si los mecanismos de seguridad existentes podían detener ese comportamiento. Resultó que las restricciones integradas apenas ayudan. Ambos modelos saben rechazar solicitudes con formulaciones claramente peligrosas; sin embargo, la búsqueda de resquicios en las reglas no la consideraron una acción indeseada. Incluso cuando se pidió a los algoritmos que analizaran su propio comportamiento, consiguieron reconocer menos del 40% de las formas de elusión halladas.

Los investigadores consideran que estas capacidades también pueden tener utilidad práctica. Antes de aprobar una nueva ley o reglamento, la inteligencia artificial puede revisar el documento y señalar dónde los participantes del mercado podrían potencialmente aprovechar la imprecisión de las formulaciones. Ese enfoque permitiría corregir parte de los problemas antes de que las nuevas normas entren en vigor.

Al mismo tiempo, según los autores, es improbable erradicar por completo esos resquicios. Cualquier sistema regulatorio complejo contiene multitud de reglas interconectadas, y las relaciones sociales son demasiado diversas como para prever todas las variantes de comportamiento. Cada nueva prohibición crea inevitablemente condiciones para la aparición de nuevas maneras de cumplir formalmente los requisitos, contraviniendo su sentido original.

Además, preocupa otro aspecto. En el trabajo se usaron modelos de lenguaje que no son los más potentes disponibles hoy. Si los sistemas existentes ya son capaces de buscar por sí mismos puntos débiles en la legislación y en las normas sectoriales, los modelos más avanzados probablemente realizarán esa tarea con aún mayor eficacia. Los autores consideran que sigue siendo una cuestión abierta si las instituciones estatales y los reguladores lograrán adaptarse a la aparición de una herramienta así.