Ahora los avatares pueden cantar, bailar y moverse por la habitación.
La startup Synthesia , especializada en la creación de avatares hiperrealistas con la ayuda de inteligencia artificial, se prepara para una nueva actualización. Ahora los avatares estarán equipados con cuerpos en movimiento y manos gesticulantes, lo que los hará aún más realistas.
Los avatares de cuerpo completo podrán realizar diversas acciones, como cantar con un micrófono o moverse por la habitación, saliendo de detrás de la mesa. Podrán expresar emociones más complejas, incluyendo entusiasmo, miedo y nerviosismo, señala Victor Riparelli, director general de Synthesia. Se espera que los avatares actualizados se presenten hacia finales de año.
Jack Saunders, investigador de la Universidad de Bath que no participó en el trabajo de Synthesia, elogió los nuevos avatares. Según él, a pesar de pequeños errores, como el cruce de manos, el realismo general es impresionante. "Nadie más puede hacer esto por ahora," afirma Saunders.
La primera versión de los avatares hiperrealistas de Synthesia se lanzó en abril. Estos avatares utilizaban grandes modelos de lenguaje para sincronizar las expresiones faciales y el tono de voz con el texto, y modelos de difusión creaban su apariencia. Sin embargo, solo se mostraban desde el torso hacia arriba, lo que reducía un poco el realismo.
Para crear avatares de cuerpo completo, Synthesia está desarrollando un modelo de inteligencia artificial aún más potente. Los usuarios deberán grabar los movimientos de sus cuerpos en un estudio.
Antes del lanzamiento de los avatares de cuerpo completo, la compañía lanzará una versión actualizada de avatares AI, que tendrán manos y podrán ser filmados desde diferentes ángulos. Anteriormente disponibles solo en modo retrato, los nuevos avatares se verán aún más realistas. Competidores como Hour One ya han lanzado avatares similares con manos, pero la versión de Synthesia tendrá movimientos de manos más naturales y sincronización labial.
El nuevo proceso de creación de avatares personalizados se ha simplificado significativamente. Si antes se requerían varias horas de grabación en un estudio, ahora todo se puede hacer en 10 minutos con una cámara digital, un micrófono de solapa y una computadora portátil. El proceso también incluye leer un guion con consentimiento para la grabación y generar una contraseña de seguridad aleatoria.
Las actualizaciones permiten escalar la producción de avatares y brindan a los modelos de AI más capacidades con menos datos. Los resultados están disponibles mucho más rápido: si antes la creación de un avatar tomaba varias semanas, ahora se puede hacer en un día.
Sin embargo, los avatares caseros no son tan expresivos como los de estudio, y los usuarios no pueden cambiar sus fondos. Las manos se animan utilizando tecnología avanzada de bucle, lo que hace que los movimientos sean más naturales según el contenido del guion. Sin embargo, Vittorio Ferrari, director de ciencia en Synthesia, enfatiza que las manos son difíciles de animar debido a sus diversos movimientos.
A pesar de todos los logros, los avatares realistas crean riesgos graves en la era de los deepfakes y la desinformación en línea. Synthesia sigue estrictas normas de moderación de contenido, verificando cuidadosamente a los clientes y el tipo de contenido que crean. Por ejemplo, solo las agencias de noticias acreditadas pueden generar contenido de noticias.
Estas innovaciones tecnológicas plantean preocupaciones sobre la confianza en el contenido en línea. Jack Saunders advierte: "La gente debe entender que no puede creer todo lo que ve. Hoy lo hace Synthesia, y el próximo año otras compañías harán lo mismo e incluso mejor."