Cómo Meta resolvió el principal desafío de la traducción automática.
En 2023, investigadores de Meta entrevistaron a 34 hablantes nativos de español y chino residentes en Estados Unidos que no dominaban el inglés. Querían descubrir qué esperaban estas personas de la inteligencia artificial al enfrentarse diariamente con la barrera del idioma.
Los participantes soñaban con un dispositivo universal, similar al traductor de "Star Trek" o al pez Babel de "Guía del autoestopista galáctico". Deseaban una IA capaz de traducir instantáneamente discursos a varios idiomas, conservando la voz del hablante, sus entonaciones, estilo y emociones. Para materializar este sueño, Meta reunió a un equipo de 50 especialistas.
El resultado fue un sistema de nueva generación llamado Seamless. Su primer componente, descrito en una reciente publicación en Nature, es capaz de transmitir el significado del habla en 36 idiomas.
Actualmente, los programas de traducción funcionan principalmente con texto escrito, fácil de encontrar en Internet en diferentes idiomas. Organismos como la ONU y el Parlamento Europeo producen documentos en todas las lenguas oficiales de sus estados miembros, generando grandes bases de datos de traducciones profesionales. Al cargar estos textos en redes neuronales (o anteriormente en modelos ocultos de Markov), se obtenían sistemas de traducción automática bastante efectivos. Sin embargo, esto presentó dos problemas:
El primero fue que las bases contenían documentos oficiales, lo que resultaba en traducciones excesivamente formales incluso para textos humorísticos. El segundo problema era la falta de grabaciones de audio paralelas.
Para abordar la formalidad, se añadieron fuentes menos oficiales, como libros y artículos de Wikipedia. Pero la escasez de grabaciones paralelas seguía siendo un desafío. Si bien esto podía resolverse en idiomas comunes como inglés o español, para lenguas raras como islandés o zulú la situación era desalentadora.
Las tecnologías actuales pueden traducir textos en numerosos idiomas, pero tienen dificultades para procesar el habla. Existen sistemas en cascada que primero convierten el habla en texto, luego lo procesan y finalmente generan discurso en el idioma de destino. Sin embargo, los errores acumulados en cada etapa reducen la calidad y dificultan su uso en tiempo real.
También hay herramientas que traducen directamente el habla, pero suelen funcionar en un solo sentido: hacia el inglés. Por ejemplo, Google AudioPaLM permite que una frase en otro idioma se traduzca al inglés, pero no facilita una conversación fluida.
En 1949, el matemático Warren Weaver, pionero en la traducción automática, teorizó sobre la existencia de un lenguaje universal aún desconocido como base común para la comunicación humana. Setenta años después, el equipo de Seamless recurrió a esta idea en busca de datos. El lenguaje universal resultó ser matemático, específicamente vectores multidimensionales.
Los ordenadores no entienden las palabras como lo hacen los humanos. Para comprender el significado, convierten las palabras en secuencias numéricas, vectores de valores. Procesar millones de documentos genera un espacio multidimensional donde palabras relacionadas, como "té" y "café", están próximas entre sí. Al analizar textos paralelos del Parlamento Europeo en dos idiomas, se crean dos espacios vectoriales independientes, y la red neuronal aprende a establecer correspondencias entre ellos.
Meta no disponía de textos paralelos para todos los idiomas necesarios. Así que vectorizaron todo el material en un único conjunto y lo integraron en un espacio común llamado SONAR (Representaciones Multimodales y Agnósticas al Lenguaje a Nivel de Oración). Luego, utilizaron la herramienta W2v (word to vector) para procesar datos de audio y agregar las grabaciones al mismo espacio multilingüe y multimodal. Cada vector contenía metadatos sobre el idioma de origen y el tipo de datos: texto o audio.
El equipo trabajó con grandes volúmenes de datos sin etiquetado complejo ni alineación manual. Entonces comenzó la magia del análisis inteligente.
Los vectores de SONAR no representaban palabras individuales, sino oraciones completas. Esto permitía captar las características de lenguas con morfologías complejas, donde una palabra puede tener varios significados según el contexto. Más importante aún, frases con significados similares se agrupaban en el espacio vectorial, independientemente del idioma.
El principio también funcionaba con el habla: expresiones similares se posicionaban juntas, incluso combinando texto y audio. Los investigadores concluyeron que, si los vectores estaban suficientemente cerca, transmitían el mismo significado, sin importar su idioma o formato original.
Así, se generaron millones de textos alineados automáticamente, incluso en lenguas raras, y miles de horas de audio transcrito. Estos materiales se usaron para entrenar la nueva tecnología.
A los datos recopilados automáticamente se añadieron textos y grabaciones verificadas por humanos, creando varias modelos de IA. El más avanzado, SEAMLESSM4T v2, se convirtió en un auténtico políglota. Reconoce el habla en 101 idiomas y puede transformarla en voz en cualquiera de los 36 idiomas compatibles. También convierte texto a voz en 96 idiomas. Según la escala BLEU (estándar para evaluar la calidad), el modelo superó a las soluciones existentes en un 8 % para texto y un 23 % para habla.
Pero el sistema va más allá. El artículo en Nature describe solo los modelos SEAMLESSM4T, ya que la revista requiere una rigurosa validación científica. Sin embargo, en arXiv.org se detallan dos modelos adicionales integrados en SEAMLESSM4T: SeamlessStreaming y SeamlessExpressive.
SeamlessStreaming aborda el problema de los retrasos, actuando como un intérprete simultáneo que traduce mientras la persona habla. SeamlessExpressive, por otro lado, conserva la expresividad del usuario, replicando tonos, prosodia, volumen y ritmo en el idioma de destino, ya sea que el hablante susurre, hable con alegría o grite de enojo.
Actualmente, no es posible usar ambas funciones simultáneamente. Hay que elegir entre transmisión en tiempo real o preservación de la expresividad. Además, la versión expresiva solo está disponible en inglés, español, francés y alemán. Aun así, el sistema ya puede probarse en línea.