Hackeo en fase de diseño: Microsoft lanza herramientas que detectan vulnerabilidades en agentes de IA antes de que se escriba su código

Hackeo en fase de diseño: Microsoft lanza herramientas que detectan vulnerabilidades en agentes de IA antes de que se escriba su código

Microsoft creó una IA cuyo puesto oficial consiste en trolear.

image

Microsoft lanzó dos herramientas de código abierto que ayudarán a los desarrolladores a detectar con antelación las vulnerabilidades en agentes de IA. Las novedades se llaman RAMPART y Clarity. La compañía quiere que los equipos revisen la seguridad de esos sistemas no después del lanzamiento, sino ya en la etapa de diseño y desarrollo.

RAMPART significa Risk Assessment and Measurement Platform for Agentic Red Teaming. La herramienta funciona como un entorno para pruebas de seguridad de agentes de IA basado en Pytest. Con ella, los desarrolladores pueden escribir verificaciones que imitan ataques o simplemente comprueban el comportamiento del agente en condiciones normales.

RAMPART ayuda a buscar distintos problemas, incluidos los casos en que instrucciones maliciosas se introducen a través de datos de terceros. Por ejemplo, un agente de IA puede recibir una orden peligrosa no directamente del usuario, sino mediante un correo, un archivo o una página web que el agente procesa. La herramienta también ayuda a detectar cambios indeseados en el comportamiento del sistema y los intentos de exfiltrar datos.

Después de ejecutar las pruebas, RAMPART evalúa el resultado y genera un informe. Para su funcionamiento solo se necesita un adaptador que vincule el agente de IA con el conjunto de verificaciones. La herramienta desarrolla las ideas de PyRIT, otro proyecto de Microsoft que ayuda a probar sistemas de IA y fue lanzado hace más de dos años.

La segunda herramienta, Clarity, es necesaria incluso antes de escribir código. Microsoft la describe como un "interlocutor estructurado" que ayuda a los desarrolladores a precisar la tarea, comprobar el enfoque elegido, analizar posibles fallos y documentar las decisiones tomadas. Según la idea de la compañía, Clarity no debe limitarse a estar de acuerdo con el equipo, sino plantear preguntas incómodas y ayudar a encontrar puntos débiles en los planes.

En Microsoft consideran que ese enfoque permite comprender de antemano por qué se añaden ciertas funcionalidades al sistema. Por ejemplo, si se da a un agente de IA acceso a una herramienta externa, el equipo podrá discutir los riesgos antes de que se construya el sistema.

El fundador del equipo Microsoft AI Red Team, Ram Shankar Siva Kumar, dijo que la empresa quería dar a los gerentes de producto y a los ingenieros una forma de comprobar sus suposiciones al inicio del proyecto, cuando cambiar de dirección es más barato y fácil. Microsoft también espera que RAMPART y Clarity ayuden a reproducir incidentes, verificar medidas de protección y convertir la experiencia acumulada de las revisiones internas en herramientas de ingeniería que se puedan ejecutar de nuevo.

Según Siva Kumar, PyRIT es más adecuado para encontrar problemas en sistemas ya terminados, mientras que RAMPART está creado para los ingenieros que están construyendo un agente de IA ahora mismo. Clarity, a su vez, ayuda a los equipos a aclarar el propósito y a documentar las suposiciones. Juntas, las herramientas convierten la seguridad de la IA de una revisión puntual en una parte constante del desarrollo.