Es hora de lanzar tu propio altavoz: OpenAI presenta una herramienta que hará sudar a Alexa, Alice y otros asistentes de voz

12:05 / 08.05.2026

Los algoritmos han aprendido la lógica humana y a dialogar tan bien como las personas.

OpenAI presentó nuevos modelos de voz para la API, con los que los desarrolladores podrán crear servicios capaces no solo de responder en voz alta, sino de entender el curso de la conversación, traducir el habla en tiempo real y ejecutar acciones sin pausas para escribir. La compañía apuesta por escenarios donde la voz se convierte en una forma completa de controlar aplicaciones, y no solo en un sustituto cómodo del teclado.

La línea incluye tres modelos. GPT-Realtime-2 se convirtió en el primer modelo de voz de OpenAI con un nivel de razonamiento de la clase GPT-5. Está pensado para diálogos complejos, puede mantener el contexto, procesar aclaraciones y continuar la conversación de forma natural, incluso cuando la petición cambia durante el intercambio.

GPT-Realtime-Translate está destinada a la traducción de voz en vivo. El modelo acepta más de 70 idiomas y traduce el habla a 13 idiomas de salida, intentando conservar el ritmo del hablante. Este enfoque de OpenAI se relaciona con tareas de atención al cliente, viajes internacionales y conversaciones entre personas a las que les resulta más cómodo hablar en distintos idiomas.

El tercer modelo, GPT-Realtime-Whisper, se encarga del reconocimiento de voz en streaming. Convierte el habla en texto en tiempo real durante la conversación, sin esperar a que termine la frase ni procesar la grabación por separado.

OpenAI considera que las interfaces de voz resultan especialmente útiles cuando es incómodo teclear: al conducir, en el aeropuerto, al contactar con soporte o al realizar otra tarea. Según la idea de la compañía, el agente de voz debe no solo responder con rapidez, sino también comprender la intención, recordar detalles, invocar herramientas externas y reaccionar correctamente ante fallos.

GPT-Realtime-2 recibió varias funciones para esos escenarios. Los desarrolladores podrán habilitar frases de servicio breves para que el usuario entienda que el sistema está verificando datos o ejecutando una solicitud. El modelo también admite llamadas paralelas a herramientas, comunica mejor los problemas en lugar de negarse en silencio y funciona con una ventana de contexto ampliada hasta 128 000 tokens en lugar de los anteriores 32 000.

OpenAI afirma que el nuevo modelo retiene mejor la terminología específica, los nombres propios y los términos especializados, incluidos los médicos. Los desarrolladores podrán ajustar el nivel de razonamiento desde mínimo hasta xhigh, eligiendo entre la velocidad de respuesta y un análisis más profundo de la tarea.

En la prueba Big Bench Audio, la versión GPT-Realtime-2 con alto nivel de razonamiento mostró una precisión del 96,6% frente al 81,4% de GPT-Realtime-1.5. En Audio MultiChallenge, la variante xhigh alcanzó un 48,5% de tasa media de éxito frente al 34,7% del modelo anterior. OpenAI atribuye el aumento a una mejor obediencia a las instrucciones, al manejo del contexto y a la robustez en conversaciones en vivo.

Es hora de lanzar tu propio altavoz: OpenAI presenta una herramienta que hará sudar a Alexa, Alice y otros asistentes de voz

Noticias sobre el tema

Cinco países de la CEI en riesgo tras el hackeo a un socio regional de NVIDIA que comprometió datos de usuarios de juegos en la nube.

Modelos de IA se reproducen sin intervención humana: analizamos los alarmantes resultados del experimento

Los celos son un lujo caro: cómo millones pagaron por espiar el móvil ajeno y se quedaron con las manos vacías

Nuevo 0day en Ivanti: la seguridad de las grandes empresas vuelve a quedar en entredicho

Se acabó lo gratis: ahora habrá que pagar por el VPN no solo al proveedor, sino también al operador de telecomunicaciones.

Plan para un millón, premio de centavos: en pocas palabras, por qué no merece la pena robar boletos de lotería

Bleeding Llama: cuando un modelo de lenguaje filtra tus datos personales

OpenAI lanza GPT-5.5-Cyber, un "hacker" de IA, y aclara a quiénes no debe atacar.

Oferta de recompensa tras un fallo que le costó 6,7 millones de dólares: TrustedVolumes propone hablar con el hacker