Dictado sin conexión: Canonical integrará reconocimiento de voz local en Ubuntu

Dictado sin conexión: Canonical integrará reconocimiento de voz local en Ubuntu

Una nueva función acercará a Linux a las funciones habituales de macOS y Windows.

image

La entrada por voz dejó de ser una novedad en los dispositivos móviles hace tiempo, pero en los ordenadores generalmente no goza de gran popularidad. La empresa Canonical, al parecer, decidió cambiar esa situación y ha revelado detalles sobre Myna —una aplicación local para convertir voz en texto que debería aparecer en Ubuntu 26.10 con nombre en clave «Stonking Stingray».

Myna será uno de los elementos destacados de la próxima versión del sistema. Canonical ya había manifestado en la Ubuntu Summit que quiere integrar funciones de IA en Ubuntu de forma más activa, y ahora ha descrito el primer paso práctico. No se trata de un asistente en la nube, sino de una función de dictado que funciona en el dispositivo mediante modelos locales de reconocimiento de voz.

La primera versión de Myna será lo más simple posible. El usuario pulsa una combinación de teclas, habla con su voz habitual y el texto aparece en la aplicación abierta. Durante el dictado, la interfaz debería mostrar una retroalimentación visual clara para que la persona vea que la grabación está en curso y que el sistema reconoce la voz.

Canonical limita expresamente el alcance de la primera versión. La compañía no promete un control completo del equipo por voz y apuesta por un dictado básico y fiable. Este enfoque muestra que Ubuntu todavía va detrás de las capacidades que ya ofrecen los competidores. En macOS, para tareas similares sirve Voice Control, y en Windows Microsoft desarrolla Voice Access en lugar del antiguo Windows Speech Recognition.

El proyecto Myna será de código abierto, y el repositorio en GitHub ya está creado, aunque por ahora contiene principalmente notas de trabajo y planes. Quedan alrededor de cuatro meses para el lanzamiento de Ubuntu 26.10, por lo que la función todavía puede cambiar.

Cabe señalar que Canonical no parte de cero: herramientas similares ya abordan estas tareas en Linux, como Speech Note, y FFmpeg 8 puede usar whisper.cpp, basado en el modelo Whisper, para la conversión local de voz a texto, por ejemplo al crear subtítulos.

En definitiva, Myna no parece un gran salto estruendoso, sino un intento de integrar una función de voz útil directamente en el escritorio de Ubuntu. Si Canonical logra estabilizar el dictado básico, los usuarios de Linux obtendrán una forma más cómoda de introducir texto sin enviar la voz a un servicio externo.