Los gráficos computacionales ocultan amenazas que nunca pensó que existían.
Recientemente, el equipo de investigadores de HiddenLayer presentó una técnica llamada «ShadowLogic», que permite insertar puertas traseras ocultas en modelos de aprendizaje automático. Este método, que no requiere añadir código, se basa en la manipulación de los gráficos computacionales de los modelos. Permite a los atacantes realizar este tipo de ataques de inteligencia artificial, que solo se activan al recibir un mensaje desencadenante específico, lo que los convierte en una amenaza seria y difícil de detectar.
Las puertas traseras en el software suelen dar a los atacantes acceso a un sistema, permitiéndoles robar datos o realizar sabotajes. Sin embargo, en este caso, la puerta trasera se inserta a nivel de la lógica del modelo, lo que permite controlar el resultado de su funcionamiento. Estos ataques persisten incluso tras el reentrenamiento del modelo, lo que aumenta su peligrosidad.
La esencia de la nueva técnica radica en que, en lugar de modificar los pesos y parámetros del modelo, los atacantes manipulan el gráfico computacional: el esquema de trabajo del modelo que determina la secuencia de operaciones y el procesamiento de datos. Esto permite insertar de forma encubierta comportamientos maliciosos en modelos de cualquier tipo, desde clasificadores de imágenes hasta sistemas de procesamiento de texto.
Un ejemplo del uso del método es la modificación del modelo ResNet, ampliamente utilizado para el reconocimiento de imágenes. Los investigadores insertaron una puerta trasera que se activa al detectar píxeles completamente rojos en una imagen.
Los investigadores aseguran que, si se desea, el desencadenante puede estar bien camuflado, de modo que deje de ser visible al ojo humano. En el estudio, al activarse el desencadenante, el modelo cambiaba la clasificación original del objeto. Esto demuestra lo fácil que es que estos ataques pasen desapercibidos.
Además de ResNet, el método ShadowLogic se aplicó con éxito a otros modelos de IA, como YOLO, que se utiliza para la detección de objetos en videos, así como a modelos de lenguaje como Phi-3. La técnica permite modificar su comportamiento en función de determinados desencadenantes, lo que la hace universal para una amplia gama de sistemas de inteligencia artificial.
Uno de los aspectos más preocupantes de estas puertas traseras es su resistencia e independencia de arquitecturas específicas. Esto abre la puerta a ataques contra cualquier sistema que utilice modelos con una estructura gráfica, desde la medicina hasta las finanzas.
Los investigadores advierten que la aparición de estas vulnerabilidades reduce la confianza en la IA. En un contexto en el que los modelos se están integrando cada vez más en infraestructuras críticas, el riesgo de que existan puertas traseras ocultas puede socavar su fiabilidad y ralentizar el desarrollo de las tecnologías.