La realidad tridimensional generada a partir de una descripción textual podría ser utilizada para entrenar otros modelos.
En marzo, Google presentó la primera versión del modelo de inteligencia artificial Genie, capaz de transformar descripciones textuales e imágenes en simples juegos en 2D. Ahora, la compañía ha dado un paso adelante al presentar Genie 2, un modelo que genera mundos virtuales tridimensionales. En estos mundos, es posible controlar personajes y moverse desde una perspectiva en primera o tercera persona. Google describe esta tecnología como fundamental y destaca especialmente su importancia para el desarrollo de la inteligencia artificial.
Los espacios virtuales creados por Genie 2 no solo sirven para el entretenimiento, sino también para entrenar a otros sistemas de IA. Las simulaciones ayudan a los modelos a desarrollar ciertas habilidades en entornos realistas pero seguros. Las investigaciones ya demuestran que las habilidades adquiridas en estas simulaciones pueden ser útiles, por ejemplo, en el campo de la robótica. Según Google, ya estamos en camino hacia la creación de una inteligencia artificial universal capaz de resolver una amplia variedad de tareas.
El principio de funcionamiento de Genie 2 es similar al de su versión anterior: la red neuronal recibe texto o imágenes como entrada y luego genera una animación que responde a las órdenes del usuario. Por ejemplo, se puede ordenar al personaje que avance, salte o interactúe con objetos. Sin embargo, los detalles exactos del proceso de entrenamiento no se han revelado. Solo se sabe que Google utilizó un volumen masivo de datos, que supera las 30 000 horas de material de video empleado en la primera versión.
En las demostraciones, Google mostró cómo Genie 2 genera escenas interactivas con personajes de todo tipo: marionetas de madera, robots o incluso botes que se balancean en el agua. Todos estos elementos responden a las órdenes del usuario y no requieren de un motor de juego predefinido. Sin embargo, todavía no está del todo claro hasta qué punto estas tecnologías son aptas para su uso en contextos reales.
Además, Genie 2 recuerda objetos que desaparecen temporalmente del campo de visión. Si un personaje sale de la escena, el programa puede restaurar el entorno cuando regrese. Para los modelos generativos, esta es una tarea compleja que suele presentar problemas para otros desarrolladores. Por ejemplo, OpenAI reconoció recientemente que su modelo Sora no logra mantener la coherencia del mundo virtual al generar videos largos. En el caso de Genie 2, estos errores se han reducido al mínimo, aunque su memoria está limitada en el tiempo: la estabilidad del mundo se mantiene durante aproximadamente un minuto, y en la mayoría de los casos, entre 10 y 20 segundos.
Estas limitaciones hacen de Genie 2 una herramienta más adecuada para experimentos y creación rápida de prototipos, en lugar de para desarrollar mundos de juego completos. Imagínese un juego RPG como Skyrim, donde al salir de una ciudad y regresar, el juego "olvide" su apariencia y genere una nueva. Por ahora, Genie 2 es más útil para visualizar ideas que para implementar mecánicas de juego complejas.
Google propone utilizar su herramienta para transformar arte conceptual en escenas interactivas. Esto podría ser útil para artistas y diseñadores que desean ver sus ideas en acción sin invertir tiempo en el desarrollo. Sin embargo, algunos opinan que esta tecnología no es adecuada para crear juegos complejos. El diseñador de videojuegos británico Sam Barlow, por ejemplo, señala que primero es importante construir la lógica y la estructura del mundo del juego antes de enfocarse en la visualización. De lo contrario, el mundo resulta caótico y carente de sentido.
Otro aspecto importante es la velocidad de la modelo. La primera versión de Genie solo podía generar un fotograma por segundo, lo que la hacía completamente inadecuada para trabajar en tiempo real. En el caso de Genie 2, se afirma que una versión "optimizada" del modelo puede operar más rápido, pero con una pérdida de calidad. Google aún no ha especificado cuánto se reduce la calidad al aumentar la velocidad.
Como comparación, a principios de año se presentó otro modelo de IA llamado Oasis, que genera mundos similares a Minecraft a una velocidad de 20 fotogramas por segundo. Sin embargo, sus creadores admiten que para alcanzar este rendimiento tuvieron que simplificar significativamente la visualización. Genie 2, aunque es más diversa en sus capacidades, enfrenta problemas similares. En los videos presentados, se puede observar cómo los detalles se vuelven borrosos y los objetos pierden nitidez durante movimientos rápidos. La imagen a continuación es un buen ejemplo: una mancha en el centro era originalmente un soldado claramente definido.
Genie 2 es otro ejemplo de cómo la inteligencia artificial puede cambiar los enfoques en la creación de mundos virtuales. Por ahora, sigue siendo una tecnología experimental, pero su desarrollo podría abrir nuevas perspectivas no solo en la industria de los videojuegos, sino también en proyectos de investigación.