¿Cómo lograr que una IA borre todo lo superfluo (y también lo necesario)? Investigamos los "flujos tóxicos"

¿Cómo lograr que una IA borre todo lo superfluo (y también lo necesario)? Investigamos los "flujos tóxicos"

La proliferación de herramientas deja a los agentes de IA como presa fácil.

image

Un servidor que parece seguro puede resultar peligroso si se observa cómo funcionan sus herramientas en conjunto. A esa conclusión llegaron los especialistas de AgentSeal, tras estudiar más de cinco mil servidores MCP que se usan para trabajar con agentes de IA.

Un ejemplo parece casi impecable. El servidor billionverify-mcp obtuvo una puntuación alta, no contiene vulnerabilidades evidentes y no se somete a ataques sencillos mediante inyección de comandos. Pero en su interior se oculta una combinación de herramientas en la que una descarga contenido externo y la otra borra datos. Si un agente procesa texto manipulado, una instrucción externa puede forzar la eliminación de un objeto necesario. Por separado ambas herramientas son seguras; juntas, no.

A estas combinaciones las llamaron flujos de datos tóxicos. Tras analizar 5 125 servidores, los especialistas encontraron tales combinaciones en 555 de ellos. Además, entre los servidores con puntuaciones altas —a partir de 70 puntos— se detectaron problemas similares en 151.

La idea es simple. Dos herramientas inofensivas pueden crear una cadena peligrosa. Por ejemplo, una puede leer datos confidenciales y otra enviar solicitudes a la red externa. O una puede obtener contenido de internet y la segunda eliminar registros. Ninguna de las herramientas es maliciosa por sí sola, pero su uso secuencial abre la puerta a un ataque.

Las pruebas mostraron que los modelos de IA con frecuencia siguen instrucciones maliciosas si estas están ocultas en las respuestas de las herramientas. En una de las pruebas la probabilidad de ese comportamiento alcanzó el 72,8%. Además, los modelos más potentes ejecutaban con más frecuencia las órdenes insertadas, porque siguen las instrucciones con mayor precisión.

Para identificar las cadenas peligrosas, los especialistas clasificaron las herramientas por tipo. Unas manejan datos privados, otras obtienen contenido externo, y otras envían información al exterior o realizan acciones destructivas. Después comprobaron qué pares de herramientas podían formar una combinación de riesgo. Por ejemplo, la ejecución de consultas SQL en una base de datos junto con el envío de mensajes a un servicio de mensajería crea un canal de fuga de datos.

Adicionalmente se realizaron pruebas prácticas. Para 113 servidores se ejecutaron más de 1 700 comprobaciones con entradas maliciosas: desde intentos de insertar comandos hasta eludir las restricciones del sistema de archivos. Ninguna herramienta dio directamente una respuesta comprometida. En general los servidores filtran correctamente las solicitudes peligrosas. El problema surge en un nivel superior: en la lógica del agente que conecta las herramientas entre sí.

Con mayor frecuencia esas cadenas conducen a la fuga de datos, la eliminación de información o la escalada de privilegios. Casi la mitad de los casos encontrados recibió una calificación crítica. De media, los servidores con esos problemas tienen alrededor de 40 herramientas, mientras que en la muestra general hay unas 13. Cuantas más herramientas, más combinaciones y, por tanto, el riesgo crece de forma no lineal, sino abrupta.

Hay ejemplos reales. El servidor de correo @agenticmail/mcp permite trabajar con correos, pero contiene herramientas para ejecutar consultas SQL y enviar mensajes. Mediante la combinación se pueden obtener primero las credenciales y luego enviarlas al exterior. La plataforma de gestión de despliegues coolifymcp da acceso a llaves SSH y al control de contenedores. Esa funcionalidad por sí sola es normal, pero se vuelve peligrosa si un agente ejecuta una orden manipulada. Y el servidor goat, vinculado a servicios cripto, permite transferir fondos: basta con alterar los datos en uno de los pasos.

Incluso soluciones grandes y cuidadosamente implementadas no están libres de estos riesgos. El servidor de sistema de archivos de Anthropic bloquea correctamente los intentos de eludir restricciones, pero aun así contiene herramientas que pueden leer y modificar datos, por lo que puede participar en cadenas peligrosas.

Los especialistas subrayan que no se trata de brechas confirmadas. Los casos detectados muestran escenarios potenciales de ataque que es difícil advertir en una revisión habitual. El peligro no reside en una herramienta aislada, sino en la forma en que las herramientas se conectan entre sí.