Intuición para robots: cómo las modelos del mundo enseñan a la IA a comprender la realidad

Intuición para robots: cómo las modelos del mundo enseñan a la IA a comprender la realidad

Otro paso para acercar la inteligencia artificial a la humana.

image

En el campo de la inteligencia artificial está surgiendo una nueva y prometedora dirección: las modelos del mundo, capaces de imitar la realidad en toda su complejidad. La empresa World Labs recientemente recibió una inversión de 230 millones de dólares para desarrollar estos sistemas. En esta carrera también se ha unido el laboratorio DeepMind, que ha incorporado a su equipo a uno de los creadores del generador de video Sora, de OpenAI.

El principio de las modelos del mundo se basa en el funcionamiento del cerebro humano. Nuestra conciencia crea continuamente una representación interna de la realidad, transformando señales sensoriales dispersas en una percepción completa. Los investigadores David Ha y Jürgen Schmidhuber ilustran este proceso con el ejemplo del béisbol: los jugadores pueden golpear pelotas que viajan a 160 kilómetros por hora, aunque las señales visuales no llegan a procesarse físicamente en el cerebro a tiempo.

En los atletas profesionales, esta habilidad se ha perfeccionado al punto de automatismo: sus músculos reaccionan instantáneamente basándose en predicciones subconscientes de la trayectoria de la pelota. Muchos especialistas creen que este mismo mecanismo de pensamiento intuitivo es esencial para crear una inteligencia artificial comparable a la humana.

Las modelos del mundo han captado especial atención debido a sus posibilidades en la generación de video. Las actuales IA suelen producir clips visualmente poco realistas, donde, por ejemplo, las extremidades de los personajes pueden deformarse o fusionarse de manera antinatural. En términos simples, los algoritmos modernos han aprendido a mostrar el rebote de una pelota de baloncesto, pero no comprenden las leyes físicas detrás de este fenómeno.

Para formar una comprensión completa de la realidad, las modelos del mundo se entrenan con datos complejos: imágenes, grabaciones de audio, videos y textos. Alex Mashrabov, quien anteriormente lideró el área de IA en Snap y ahora dirige la empresa Higgsfield , señala: el espectador espera que el mundo virtual siga las leyes físicas habituales, donde una pluma no cae con el peso de un yunque y una bola de boliche no se eleva a alturas imposibles.

El director del departamento de investigación de Meta, Yann LeCun , ve en las modelos del mundo una herramienta para predicciones y planificaciones complejas. Según él, estos sistemas podrán determinar de forma autónoma la secuencia de acciones para alcanzar un objetivo, como limpiar una habitación desordenada. La IA elaborará un plan: poner a funcionar el aspirador, lavar los platos, recoger la basura. Y lo hará no porque haya visto un escenario similar en sus datos de entrenamiento, sino porque entiende la esencia del proceso de limpieza.

OpenAI ya está dando los primeros pasos en esta dirección. Su sistema Sora es capaz de reproducir fielmente el proceso de pintar con pincel sobre un lienzo. Además, puede crear mundos de videojuegos creíbles. Aunque la calidad actual todavía deja mucho que desear... pero el futuro es prometedor.

Justin Johnson, cofundador de World Labs, predice cambios significativos en la industria de los videojuegos. Hoy en día, el desarrollo de mundos virtuales requiere meses de trabajo por equipos y cientos de millones de dólares en inversiones. Las modelos del mundo podrían automatizar este proceso, creando espacios tridimensionales interactivos completos bajo demanda.

Sin embargo, alcanzar estos objetivos enfrenta serios desafíos técnicos. Entrenar y operar modelos del mundo requiere enormes recursos computacionales. Mientras que los modelos de lenguaje actuales funcionan incluso en smartphones comunes, un sistema del nivel de Sora necesita miles de potentes procesadores gráficos.

Al igual que otras tecnologías de IA, las modelos del mundo tienden a cometer errores de percepción y pueden heredar sesgos de los datos de entrenamiento. Una IA entrenada principalmente con videos de días soleados en ciudades europeas podría interpretar incorrectamente paisajes invernales en megaciudades asiáticas.

Mashrabov destaca el problema de la falta de materiales de entrenamiento de alta calidad. Los modelos existentes a menudo no comprenden bien la diversidad de la apariencia humana ni las características raciales. Para entrenar adecuadamente un sistema, es necesario mostrarle muchas situaciones diferentes y, al mismo tiempo, enseñarle a analizarlas en profundidad.

Cristóbal Valenzuela, director de la startup de IA Runway, admite que por ahora a las modelos les resulta difícil imitar con precisión el comportamiento de los seres vivos. Según él, los modelos deben aprender a crear mapas precisos del entorno y a interactuar de manera orgánica con el mundo virtual.

Si estos retos se resuelven, las modelos del mundo podrían conectar la inteligencia artificial con la realidad física. Mashrabov está convencido de que este avance no solo transformará la creación de espacios virtuales, sino que también cambiará los robots y la forma en que los sistemas de IA toman decisiones.

Los robots actuales están limitados en sus acciones porque no entienden qué sucede a su alrededor ni dónde se encuentran. Las modelos del mundo les ayudarán a comprender y reinterpretar todo su entorno.

Tu privacidad está muriendo lentamente, pero nosotros podemos salvarla

¡Únete a nosotros!