Sin contraseñas y en solo dos horas: una IA aprende a hackear otras IA por sí sola

15:10 / 10.03.2026

Expertos de CodeWall acceden a 46 millones de mensajes de empleados de McKinsey.

Un agente autónomo basado en inteligencia artificial vulneró la plataforma interna de IA de la consultora McKinsey & Company en apenas dos horas. El ataque lo realizó el equipo de la startup CodeWall, que verifica la seguridad de las empresas mediante ejercicios de "red team". El agente eligió el objetivo por sí mismo, encontró una vulnerabilidad y obtuvo acceso total al sistema.

McKinsey lanzó su propia plataforma generativa de inteligencia artificial llamada Lilli en julio de 2023. El chatbot se integró rápidamente en las operaciones internas de la empresa. Según McKinsey, Lilli la usan el 72% de los empleados —más de 40 000 personas. El sistema procesa más de 500 000 consultas al mes.

Los especialistas de CodeWall utilizan agentes autónomos que atacan de forma continua la infraestructura de sus clientes y, de ese modo, ayudan a encontrar debilidades en la seguridad. Uno de esos agentes propuso comprobar los sistemas de McKinsey. La causa fue la política publicada de divulgación responsable de vulnerabilidades y las recientes actualizaciones de Lilli. Tras ello, los especialistas lanzaron contra la plataforma una herramienta autónoma de pruebas ofensivas. El agente no disponía de credenciales de McKinsey.

Dos horas después del inicio de la prueba, el agente obtuvo acceso completo de lectura y escritura a la base de datos de trabajo. El sistema permitió ver alrededor de 46,5 millones de mensajes de chats donde empleados discutían estrategia, operaciones de fusiones y adquisiciones y proyectos de clientes. Los mensajes se almacenaban en texto plano. El agente también accedió a 728 000 archivos con datos confidenciales de clientes, 57 000 cuentas de usuario y 95 instrucciones del sistema que controlan el comportamiento de la inteligencia artificial.

El problema resultaba especialmente peligroso. Todas las instrucciones del sistema podían modificarse. Un atacante habría podido reescribir de forma inadvertida las instrucciones para Lilli y así alterar las respuestas del chatbot para decenas de miles de consultores.

El agente encontró una vulnerabilidad tipo inyección SQL a finales de febrero. La cadena completa del ataque la entregaron a McKinsey el 1 de marzo. Al día siguiente la empresa cerró las interfaces vulnerables sin autenticación, desactivó el entorno de desarrollo y retiró la documentación pública de la API.

Un portavoz de McKinsey informó que la compañía solucionó todos los problemas detectados en pocas horas tras recibir la notificación. Una revisión con la participación de una firma forense externa no detectó indicios de acceso a datos de clientes por parte de terceros.

El ataque fue completamente automático. Según el director ejecutivo de CodeWall, Paul Price, el agente ejecutó de forma autónoma todo el proceso: desde la selección del objetivo hasta el análisis, el ataque y la elaboración del informe.

Al principio, el sistema encontró la documentación pública de la API de Lilli. Entre las descripciones había 22 puntos de acceso que funcionaban sin autenticación. Una de las interfaces registraba las consultas de búsqueda de los usuarios. El agente observó que los nombres de campos del formato JSON se insertaban directamente en las consultas a la base de datos. Ese esquema abría la puerta a la inyección SQL.

Las pistas provinieron de mensajes de error de la base de datos. El sistema mostraba en sus respuestas datos reales del entorno de trabajo. El agente comprendió rápidamente que había encontrado una vulnerabilidad que las herramientas estándar a menudo pasan por alto.

La situación se agravó por la propia arquitectura de la plataforma. Las instrucciones del sistema de Lilli se almacenaban en la misma base de datos. La vulnerabilidad permitía no solo leer los datos, sino también modificar los registros. A un atacante le habría bastado una única consulta al servidor para cambiar las instrucciones del chatbot sin actualizar el código ni reiniciar el sistema.

Todos los problemas detectados ya han sido corregidos. Sin embargo, en CodeWall consideran que la situación muestra una nueva tendencia. Los agentes autónomos son capaces de llevar a cabo ciberataques sin intervención humana y de actuar a velocidad de máquina. Según Price, los grupos delictivos comenzarán pronto a emplear estas herramientas para ataques masivos, chantajes por fugas de datos y la difusión de ransomware.

Онлайн

ИЮНЯ

16:20

Product Backstage*: безопасная разработка и защита контейнеров

17 июня обсудим обновления PT Application Inspector, PT BlackBox и безопасность контейнеров.

Зарегистрироваться

Реклама. 18+. АО «Позитив Текнолоджиз», ИНН 7718668887 · *Продуктовое закулисье

Sin contraseñas y en solo dos horas: una IA aprende a hackear otras IA por sí sola

Noticias sobre el tema

Durante 10 años introducías tu contraseña y un hacker la leía en tiempo real

Kaspersky advierte que Steam Workshop distribuye virus a través de fondos animados de Wallpaper Engine

Descargó TikTok y se quedó sin sueldo: Rokarolla muestra el precio de confiar en fuentes externas

2,5 segundos para hackear: nombres previsibles de buckets de Google facilitaron a los hackers el acceso a modelos de IA

Tercera guerra mundial, sectas y energía nuclear. ¿De qué hablan a puerta cerrada los más ricos del mundo?

No tocaron las urnas, atacaron las mentes de los votantes: Francia revela a cuatro actores extranjeros que influyeron en las elecciones

Ataque de un clic: basta un clic — Copilot lo localiza y Bing lo entrega, todo desde las páginas oficiales de Microsoft en las que confiábamos

Un hacker se registró como agente y logró interrumpir la transmisión del Mundial 2026 al explotar una vulnerabilidad en los sistemas de la FIFA.