Es hora de lanzar tu propio altavoz: OpenAI presenta una herramienta que hará sudar a Alexa, Alice y otros asistentes de voz

Es hora de lanzar tu propio altavoz: OpenAI presenta una herramienta que hará sudar a Alexa, Alice y otros asistentes de voz

Los algoritmos han aprendido la lógica humana y a dialogar tan bien como las personas.

image

OpenAI presentó nuevos modelos de voz para la API, con los que los desarrolladores podrán crear servicios capaces no solo de responder en voz alta, sino de entender el curso de la conversación, traducir el habla en tiempo real y ejecutar acciones sin pausas para escribir. La compañía apuesta por escenarios donde la voz se convierte en una forma completa de controlar aplicaciones, y no solo en un sustituto cómodo del teclado.

La línea incluye tres modelos. GPT-Realtime-2 se convirtió en el primer modelo de voz de OpenAI con un nivel de razonamiento de la clase GPT-5. Está pensado para diálogos complejos, puede mantener el contexto, procesar aclaraciones y continuar la conversación de forma natural, incluso cuando la petición cambia durante el intercambio.

GPT-Realtime-Translate está destinada a la traducción de voz en vivo. El modelo acepta más de 70 idiomas y traduce el habla a 13 idiomas de salida, intentando conservar el ritmo del hablante. Este enfoque de OpenAI se relaciona con tareas de atención al cliente, viajes internacionales y conversaciones entre personas a las que les resulta más cómodo hablar en distintos idiomas.

El tercer modelo, GPT-Realtime-Whisper, se encarga del reconocimiento de voz en streaming. Convierte el habla en texto en tiempo real durante la conversación, sin esperar a que termine la frase ni procesar la grabación por separado.

OpenAI considera que las interfaces de voz resultan especialmente útiles cuando es incómodo teclear: al conducir, en el aeropuerto, al contactar con soporte o al realizar otra tarea. Según la idea de la compañía, el agente de voz debe no solo responder con rapidez, sino también comprender la intención, recordar detalles, invocar herramientas externas y reaccionar correctamente ante fallos.

GPT-Realtime-2 recibió varias funciones para esos escenarios. Los desarrolladores podrán habilitar frases de servicio breves para que el usuario entienda que el sistema está verificando datos o ejecutando una solicitud. El modelo también admite llamadas paralelas a herramientas, comunica mejor los problemas en lugar de negarse en silencio y funciona con una ventana de contexto ampliada hasta 128 000 tokens en lugar de los anteriores 32 000.

OpenAI afirma que el nuevo modelo retiene mejor la terminología específica, los nombres propios y los términos especializados, incluidos los médicos. Los desarrolladores podrán ajustar el nivel de razonamiento desde mínimo hasta xhigh, eligiendo entre la velocidad de respuesta y un análisis más profundo de la tarea.

En la prueba Big Bench Audio, la versión GPT-Realtime-2 con alto nivel de razonamiento mostró una precisión del 96,6% frente al 81,4% de GPT-Realtime-1.5. En Audio MultiChallenge, la variante xhigh alcanzó un 48,5% de tasa media de éxito frente al 34,7% del modelo anterior. OpenAI atribuye el aumento a una mejor obediencia a las instrucciones, al manejo del contexto y a la robustez en conversaciones en vivo.