Un hacker envió a ChatGPT al pasado y obtuvo las claves del conocimiento prohibido

17:06 / 31.01.2025

La vulnerabilidad Time Bandit hace que la IA olvide las restricciones de contenido.

El especialista en ciberseguridad David Kuzmar descubrió una vulnerabilidad en ChatGPT que permite eludir las restricciones de contenido y acceder a información prohibida. El fallo, denominado «Time Bandit», explota la "confusión temporal" del modelo, obligándolo a perder su orientación en el tiempo.

Time Bandit resultó ser uno de los métodos de evasión de seguridad más complejos y efectivos, utilizando dos mecanismos clave:

Confusión temporal: hace que la IA pierda la noción del tiempo, impidiéndole comprender la fecha y el contexto actuales.
Ambigüedad procedimental: permite formular preguntas de manera que el modelo no pueda aplicar correctamente sus reglas y filtros de seguridad.

Al combinar estos métodos, es posible engañar a ChatGPT haciéndole creer que se encuentra, por ejemplo, en 1789, pero con acceso a conocimientos modernos. De este modo, el investigador logró obtener instrucciones para crear código malicioso en el siglo XVIII utilizando tecnología actual.

Elusión de restricciones de contenido en ChatGPT (BleepingComputer)

Este mecanismo permite evitar limitaciones en la divulgación de información sobre la fabricación de armas, tecnologías nucleares y software malicioso. Los experimentos confirmaron que el método Time Bandit funciona con mayor frecuencia en solicitudes relacionadas con los siglos XVIII y XIX.

El investigador intentó contactar con OpenAI, pero sin éxito. Le sugirieron informar del problema a través de la plataforma BugCrowd, aunque consideró la vulnerabilidad demasiado sensible para compartirla con un tercero. Luego, Kuzmar acudió a CISA, el FBI y otras agencias gubernamentales de EE.UU., pero tampoco obtuvo ayuda.

Solo después de contactar con el CERT Coordination Center, OpenAI reconoció la existencia de la vulnerabilidad. La empresa declaró que está tomando medidas para solucionar el problema, aunque no pudo proporcionar un plazo exacto para su corrección total.

Sin embargo, en el momento de la prueba, Time Bandit seguía funcionando, aunque con limitaciones: OpenAI implementó algunas medidas, como la eliminación de solicitudes relacionadas con el exploit, pero no resolvió completamente el problema. La compañía aseguró que continúa mejorando su sistema de seguridad, sin precisar una fecha exacta para la solución del fallo.

Además de ChatGPT, Kuzmar probó Google Gemini. Se descubrió que este chatbot también es parcialmente vulnerable, pero su protección es más efectiva: la IA se negó a proporcionar instrucciones detalladas y bloqueó intentos de acceso a información restringida.

La presencia de una falla de este tipo en múltiples modelos avanzados revela deficiencias graves en los principios de filtrado de información. Si ChatGPT, a pesar de su memoria limitada, aún proporciona datos críticos, queda claro que la seguridad de la IA sigue siendo una cuestión sin resolver.

Las huellas digitales son tu debilidad, y los hackers lo saben

¡Suscríbete y descubre cómo borrarlas!

Un hacker envió a ChatGPT al pasado y obtuvo las claves del conocimiento prohibido

Las huellas digitales son tu debilidad, y los hackers lo saben

Noticias sobre el tema

Se encontraron cuatro vulnerabilidades de día cero en el Programador de tareas de Windows

1 BTC por hackeo: Bitcoin lanza un reto a los hackers cuánticos

¿Un “defecto” como ventaja? Las microfisuras en cristales podrían acelerar tu tecnología 100 veces

Escanea, carga, deporta: expulsiones al estilo Amazon

¿Dónde se tomó esta foto? ChatGPT ahora sabe más que Google Maps

Los bots de IA de Overwatch ya están entre nosotros: espían a las personas

Señales de que tu cuenta de WhatsApp ha sido hackeada: cómo evitar filtraciones

Análisis de aplicaciones: por qué y cuándo realizar un pentest y auditoría de aplicaciones web

Activos clave del negocio: definición y protección en 4 etapas