Hackeo en fase de diseño: Microsoft lanza herramientas que detectan vulnerabilidades en agentes de IA antes de que se escriba su código

13:34 / 21.05.2026

Microsoft creó una IA cuyo puesto oficial consiste en trolear.

Microsoft lanzó dos herramientas de código abierto que ayudarán a los desarrolladores a detectar con antelación las vulnerabilidades en agentes de IA. Las novedades se llaman RAMPART y Clarity. La compañía quiere que los equipos revisen la seguridad de esos sistemas no después del lanzamiento, sino ya en la etapa de diseño y desarrollo.

RAMPART significa Risk Assessment and Measurement Platform for Agentic Red Teaming. La herramienta funciona como un entorno para pruebas de seguridad de agentes de IA basado en Pytest. Con ella, los desarrolladores pueden escribir verificaciones que imitan ataques o simplemente comprueban el comportamiento del agente en condiciones normales.

RAMPART ayuda a buscar distintos problemas, incluidos los casos en que instrucciones maliciosas se introducen a través de datos de terceros. Por ejemplo, un agente de IA puede recibir una orden peligrosa no directamente del usuario, sino mediante un correo, un archivo o una página web que el agente procesa. La herramienta también ayuda a detectar cambios indeseados en el comportamiento del sistema y los intentos de exfiltrar datos.

Después de ejecutar las pruebas, RAMPART evalúa el resultado y genera un informe. Para su funcionamiento solo se necesita un adaptador que vincule el agente de IA con el conjunto de verificaciones. La herramienta desarrolla las ideas de PyRIT, otro proyecto de Microsoft que ayuda a probar sistemas de IA y fue lanzado hace más de dos años.

La segunda herramienta, Clarity, es necesaria incluso antes de escribir código. Microsoft la describe como un "interlocutor estructurado" que ayuda a los desarrolladores a precisar la tarea, comprobar el enfoque elegido, analizar posibles fallos y documentar las decisiones tomadas. Según la idea de la compañía, Clarity no debe limitarse a estar de acuerdo con el equipo, sino plantear preguntas incómodas y ayudar a encontrar puntos débiles en los planes.

En Microsoft consideran que ese enfoque permite comprender de antemano por qué se añaden ciertas funcionalidades al sistema. Por ejemplo, si se da a un agente de IA acceso a una herramienta externa, el equipo podrá discutir los riesgos antes de que se construya el sistema.

El fundador del equipo Microsoft AI Red Team, Ram Shankar Siva Kumar, dijo que la empresa quería dar a los gerentes de producto y a los ingenieros una forma de comprobar sus suposiciones al inicio del proyecto, cuando cambiar de dirección es más barato y fácil. Microsoft también espera que RAMPART y Clarity ayuden a reproducir incidentes, verificar medidas de protección y convertir la experiencia acumulada de las revisiones internas en herramientas de ingeniería que se puedan ejecutar de nuevo.

Según Siva Kumar, PyRIT es más adecuado para encontrar problemas en sistemas ya terminados, mientras que RAMPART está creado para los ingenieros que están construyendo un agente de IA ahora mismo. Clarity, a su vez, ayuda a los equipos a aclarar el propósito y a documentar las suposiciones. Juntas, las herramientas convierten la seguridad de la IA de una revisión puntual en una parte constante del desarrollo.

Hackeo en fase de diseño: Microsoft lanza herramientas que detectan vulnerabilidades en agentes de IA antes de que se escriba su código

Noticias sobre el tema

Un solo clic en vez de miles de líneas: un enlace bastó para que hackers comprometieran Dify, la plataforma de IA con 10 millones de usuarios.

31 vulnerabilidades y riesgo de pérdida de archivos: esto puede pasar si aplazas la instalación de la última actualización de Firefox

Google admite haber ocultado una vulnerabilidad durante dos años y medio — y luego publica el código del ataque en línea

Discord completa la transición al cifrado de extremo a extremo: llamadas desde consolas, móviles y PC ahora comparten una sala segura

¿Dónde acabaron 5.000 ETH? Hackers provocan venta de pánico de ahorros cripto robados

¿Quién podrá hacerlo en 48 horas? EE. UU. exigió a TikTok, Snapchat y otras 13 plataformas poder eliminar imágenes íntimas

Se acabó la era del «introduce el código del mensaje»: Microsoft apuesta por el acceso sin contraseñas ni SMS

Acceso root sin contraseña y control del kernel de Linux: así funciona el exploit PinThef

Red Hat propone ignorar la mitad de las alertas de vulnerabilidades, pero hacerlo con criterio