En primera persona y en tiempo real: DreamDojo transforma vídeos comunes en guías detalladas para aficionados al hardware

En primera persona y en tiempo real: DreamDojo transforma vídeos comunes en guías detalladas para aficionados al hardware

Por fin, las máquinas empezarán a entender el contexto de nuestras acciones en vez de imitarlas ciegamente.

image

La compañía Nvidia presentó un nuevo sistema de entrenamiento de robots DreamDojo, que utiliza un gran conjunto de grabaciones de vídeo con personas para formar en las máquinas una comprensión del mundo físico. El desarrollo está orientado a acelerar la preparación de robots humanoides e industriales y a reducir los costes de su entrenamiento en condiciones reales.

El proyecto fue creado por un equipo liderado por Nvidia en colaboración con las universidades de California en Berkeley, Stanford y Texas en Austin. Los autores del trabajo califican a DreamDojo como el primer modelo de este tipo, capaz, tras un ajuste adicional, de trabajar con seguridad con distintos objetos y en diversos entornos.

La base es el conjunto de entrenamiento DreamDojo-HV — alrededor de 44.000 horas de grabaciones en primera persona, en las que personas realizan acciones cotidianas. Según los desarrolladores, este corpus supera notablemente a las bases anteriores para modelos similares en duración, número de habilidades y cantidad de escenas.

El sistema emplea un esquema en dos fases. Primero, el modelo obtiene una representación general de la física de las interacciones, analizando las acciones humanas en el vídeo y los parámetros ocultos del movimiento. Después se realiza un ajuste fino para una plataforma robótica concreta, teniendo en cuenta señales de control continuas. Este enfoque permite reducir el volumen de demostraciones específicas que normalmente hay que recopilar por separado para cada robot.

Se destaca, además, un aumento del rendimiento. Tras la optimización, el modelo funciona en tiempo real a un ritmo de aproximadamente 10 fotogramas por segundo durante más de un minuto. Esto abre la posibilidad de control remoto y de planificación operativa de acciones. Las pruebas se realizaron en varias plataformas humanoides, entre ellas GR-1, G1, AgiBot y YAM. Durante los ensayos, el sistema predijo correctamente las manipulaciones de objetos y el comportamiento en distintos tipos de entornos.

La aparición de DreamDojo coincidió con el aumento del interés de Nvidia en la robótica. El director de la compañía, Jensen Huang, declaró anteriormente que los próximos años serán un periodo de desarrollo acelerado de esta área, y que las inversiones en la infraestructura de inteligencia artificial siguen creciendo. Según analistas del sector, el volumen de inversión en startups de robótica el año pasado alcanzó valores récord, y las grandes empresas industriales amplían las asociaciones en este ámbito.

Los desarrolladores de DreamDojo también señalan la utilidad práctica de la simulación. El modelo permite evaluar con antelación estrategias de control y el comportamiento del robot sin desplegarlo en un entorno físico. Esto reduce los riesgos y el coste de las pruebas, especialmente en condiciones inestables y poco predecibles. Los planes para publicar el código fuente están confirmados, pero aún no se han fijado plazos concretos.