Un hacker envió a ChatGPT al pasado y obtuvo las claves del conocimiento prohibido

Un hacker envió a ChatGPT al pasado y obtuvo las claves del conocimiento prohibido

La vulnerabilidad Time Bandit hace que la IA olvide las restricciones de contenido.

image

El especialista en ciberseguridad David Kuzmar descubrió una vulnerabilidad en ChatGPT que permite eludir las restricciones de contenido y acceder a información prohibida. El fallo, denominado «Time Bandit», explota la "confusión temporal" del modelo, obligándolo a perder su orientación en el tiempo.

Time Bandit resultó ser uno de los métodos de evasión de seguridad más complejos y efectivos, utilizando dos mecanismos clave:

  1. Confusión temporal: hace que la IA pierda la noción del tiempo, impidiéndole comprender la fecha y el contexto actuales.
  2. Ambigüedad procedimental: permite formular preguntas de manera que el modelo no pueda aplicar correctamente sus reglas y filtros de seguridad.

Al combinar estos métodos, es posible engañar a ChatGPT haciéndole creer que se encuentra, por ejemplo, en 1789, pero con acceso a conocimientos modernos. De este modo, el investigador logró obtener instrucciones para crear código malicioso en el siglo XVIII utilizando tecnología actual.

Elusión de restricciones de contenido en ChatGPT (BleepingComputer)

Este mecanismo permite evitar limitaciones en la divulgación de información sobre la fabricación de armas, tecnologías nucleares y software malicioso. Los experimentos confirmaron que el método Time Bandit funciona con mayor frecuencia en solicitudes relacionadas con los siglos XVIII y XIX.

El investigador intentó contactar con OpenAI, pero sin éxito. Le sugirieron informar del problema a través de la plataforma BugCrowd, aunque consideró la vulnerabilidad demasiado sensible para compartirla con un tercero. Luego, Kuzmar acudió a CISA, el FBI y otras agencias gubernamentales de EE.UU., pero tampoco obtuvo ayuda.

Solo después de contactar con el CERT Coordination Center , OpenAI reconoció la existencia de la vulnerabilidad. La empresa declaró que está tomando medidas para solucionar el problema, aunque no pudo proporcionar un plazo exacto para su corrección total.

Sin embargo, en el momento de la prueba , Time Bandit seguía funcionando, aunque con limitaciones: OpenAI implementó algunas medidas, como la eliminación de solicitudes relacionadas con el exploit, pero no resolvió completamente el problema. La compañía aseguró que continúa mejorando su sistema de seguridad, sin precisar una fecha exacta para la solución del fallo.

Además de ChatGPT, Kuzmar probó Google Gemini. Se descubrió que este chatbot también es parcialmente vulnerable, pero su protección es más efectiva: la IA se negó a proporcionar instrucciones detalladas y bloqueó intentos de acceso a información restringida.

La presencia de una falla de este tipo en múltiples modelos avanzados revela deficiencias graves en los principios de filtrado de información. Si ChatGPT, a pesar de su memoria limitada, aún proporciona datos críticos, queda claro que la seguridad de la IA sigue siendo una cuestión sin resolver.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Suscribirse