La inteligencia artificial revive el cine mudo: DeepMind presenta V2A

17:25 / 18.06.2024

Un sistema innovador sincroniza el audio con cualquier contenido de video.

Los investigadores de Google DeepMind han logrado avances significativos en la creación de video, presentando la tecnología V2A (Video-to-Audio). Su nuevo desarrollo es capaz de generar automáticamente una banda sonora para videos que originalmente fueron creados sin sonido.

V2A funciona basándose en el aprendizaje automático y combina el análisis de píxeles de video con indicaciones textuales. Esto permite al programa crear efectos de sonido realistas, música e incluso diálogos que coinciden con lo que ocurre en la pantalla. La tecnología es compatible con otros desarrollos de DeepMind, como el modelo de generación de video Veo. El trabajo conjunto de V2A y Veo permitirá crear videos completos con sonido sincronizado y efectos visuales.

Además de dar voz al "cine mudo", V2A puede aplicarse a diversos tipos de materiales de archivo, incluidos películas y grabaciones antiguas, lo que abre amplias posibilidades para el procesamiento creativo y la restauración de video archivado.

V2A es capaz de crear una cantidad ilimitada de pistas de sonido para el mismo video. El usuario puede influir en el resultado mediante indicaciones textuales. Las "indicaciones positivas" dirigen al modelo a crear ciertos sonidos, mientras que las "negativas" excluyen elementos de sonido no deseados. Esta flexibilidad de control permite a los autores experimentar con diferentes opciones de sonorización y elegir la más adecuada.

V2A se destaca frente a las soluciones existentes para la sonorización de videos porque puede trabajar con píxeles de video "crudos", y las indicaciones textuales son opcionales. Además, el sistema elimina la necesidad de sincronizar manualmente el sonido y la imagen, lo cual normalmente requiere un ajuste meticuloso de varios elementos (sonidos, efectos visuales y tiempos).

Sin embargo, la tecnología aún se encuentra en desarrollo, y los investigadores deben resolver varios desafíos. Por ejemplo, la calidad del sonido generado depende directamente de la calidad del video original. Los artefactos o distorsiones en el video pueden llevar a una notable disminución de la calidad del sonido.

Otra área de mejora es la sincronización del habla con los movimientos de los labios. V2A intenta generar habla basándose en transcripciones textuales y sincronizarla con los movimientos de los labios de los personajes. Sin embargo, el modelo de generación de video asociado a V2A puede no tener en cuenta estas transcripciones, lo que da como resultado una sincronización poco natural, donde los movimientos de los labios no coinciden con las palabras pronunciadas.

Google destaca la importancia de la seguridad y la transparencia en el desarrollo de sus tecnologías. La compañía recoge opiniones de los principales creadores y cineastas para perfeccionar V2A. Además, Google utiliza la herramienta SynthID para indicar con una marca de agua el contenido creado por inteligencia artificial, para prevenir posibles abusos.

Antes de hacer que la tecnología V2A esté disponible para el público en general, pasará por exhaustivas pruebas y verificaciones. Los resultados iniciales muestran que esta tecnología tiene un gran potencial para crear videos animados y realistas.

Las huellas digitales son tu debilidad, y los hackers lo saben

¡Suscríbete y descubre cómo borrarlas!

La inteligencia artificial revive el cine mudo: DeepMind presenta V2A

Las huellas digitales son tu debilidad, y los hackers lo saben

Noticias sobre el tema

La IA al servicio de la frontera: un "me gusta" es una bandera roja

«Un PIN en la frente sería más seguro»: Perplexity AI se convierte en un regalo para espías

Reinicio sin avisar: Android ahora se apaga solo

1 BTC por hackeo: Bitcoin lanza un reto a los hackers cuánticos

¿El fin de la ciencia humana? Una IA diseña detectores de ondas gravitacionales mejores que los de los premios Nobel

¿Un “defecto” como ventaja? Las microfisuras en cristales podrían acelerar tu tecnología 100 veces

Escanea, carga, deporta: expulsiones al estilo Amazon

¿Dónde se tomó esta foto? ChatGPT ahora sabe más que Google Maps

Los bots de IA de Overwatch ya están entre nosotros: espían a las personas