Cómo la fe ciega en la tecnología desdibuja la línea entre la realidad y la ficción.
Los hospitales estadounidenses utilizan cada vez más una herramienta de IA para la transcripción de audio a texto llamada Whisper. Sin embargo, según una investigación de Associated Press, esta red neuronal desarrollada por OpenAI es propensa a "alucinaciones" y añade frases inexistentes en las transcripciones de datos médicos y documentación empresarial.
Lanzado en 2022, Whisper se posicionó inicialmente como un sistema de transcripción con una precisión cercana a la humana. Sin embargo, un investigador de la Universidad de Míchigan señaló que en el 80% de los protocolos verificados de reuniones públicas se detectaron datos distorsionados. Uno de los desarrolladores informó que, de sus 26,000 transcripciones de prueba, casi todas contenían fragmentos inventados.
A pesar de las advertencias de OpenAI de que Whisper no debe usarse en áreas críticas, más de 30,000 profesionales de la salud en Estados Unidos actualmente utilizan herramientas basadas en él. Entre ellos se encuentra la clínica Mankato en Minnesota y el Hospital Infantil de Los Ángeles, donde se usa un servicio de asistente de IA proporcionado por la empresa Nabla. Esta última confirmó la posibilidad de "alucinaciones" y agregó que las grabaciones de audio ya transcritas se eliminan automáticamente para garantizar la protección de datos, lo que dificulta la verificación de errores en las transcripciones.
Mientras tanto, los errores en las transcripciones pueden causar daños graves a los pacientes. Las personas sordas y con problemas de audición son especialmente vulnerables, ya que no pueden verificar por sí mismas la corrección de los datos introducidos.
Los problemas de Whisper van más allá del ámbito médico. Investigaciones de la Universidad de Cornell y la Universidad de Virginia revelaron que en el 1% de las grabaciones de audio, el sistema añadía frases que no estaban en los datos originales. En el 38% de los casos, estas "alucinaciones" tenían un carácter dañino, desde actos de violencia ficticios hasta comentarios racistas.
La tecnología Whisper se basa en la predicción de palabras probables a partir de datos de audio. Si el sistema se encuentra con grabaciones de mala calidad, utiliza frases que se repiten con frecuencia en los datos de entrenamiento. Algunos ejemplos indican la influencia de contenido de YouTube, que fue utilizado durante el entrenamiento del modelo.
Los errores de Whisper plantean cuestiones sobre la regulación del uso de la IA en medicina. Aunque OpenAI reconoce el problema y sigue mejorando el modelo, el uso de herramientas de IA poco fiables en áreas críticas requiere medidas estrictas y certificación. Solo un enfoque de este tipo permitirá minimizar los riesgos y garantizar un nivel adecuado de seguridad para los pacientes.