Cómo construir un "Terminator" inteligente en tu garaje: aficionados usaron tecnologías abiertas y enseñaron al robot a reconocer objetos

Cómo construir un "Terminator" inteligente en tu garaje: aficionados usaron tecnologías abiertas y enseñaron al robot a reconocer objetos

Ingenieros profesionales fueron superados por simples comandos de texto.

image

Los robots durante mucho tiempo siguieron siendo un ámbito reservado para ingenieros con equipos caros y mucha paciencia. Sin embargo, el nuevo experimento del periodista Will Knight muestra que la barrera de entrada está descendiendo rápidamente: las herramientas modernas de IA ya ayudan a configurar manipuladores, escribir el código de control y entrenar modelos para trabajar con objetos.

Knight conectó el agente de IA OpenClaw a la mano robótica real LeRobot 101. El manipulador forma parte del proyecto abierto HuggingFace y está diseñado para experimentos con robótica relativamente asequibles. El kit consta de dos partes: una mano de control, que mueve una persona, y una mano seguidora con una cámara que repite los movimientos. Mediante ese modo se pueden recopilar datos y entrenar al modelo para ejecutar acciones a partir de la imagen de la cámara.

Antes de la conexión, la configuración le llevó a Knight varias horas y casi terminó con la rotura de los motores por parámetros incorrectos. Después, OpenClaw junto con Codex ayudaron a escribir un programa sencillo que hizo que la pinza se cerrara al detectar una pelota roja. Codex configuró la conexión con el robot desde el terminal, tras lo cual el sistema calibró las articulaciones y preparó un script en Python para el reconocimiento del objeto y el agarre.

El resultado no fue perfecto. Knight señala por separado que la codificación con IA puede fallar, especialmente al trabajar con distintos equipos. Pero el enfoque resultó lo bastante potente como para pasar del simple movimiento del manipulador al entrenamiento de un modelo capaz de tomar y transportar objetos.

Según el ingeniero en robótica Ken Goldberg de la Universidad de California en Berkeley, escribir código con ayuda de IA puede conectar la ingeniería clásica, fiable pero poco adaptable a tareas nuevas, con los modelos modernos, que generalizan mejor la experiencia pero aún son inferiores en estabilidad.

El enfoque, conocido como «código como política», se describió ya en un trabajo científico de 2022. Desde entonces las capacidades de los modelos en programación han aumentado notablemente, y el método se empezó a probar en laboratorios. El equipo de Goldberg junto con Nvidia, la Universidad Carnegie Mellon y Stanford creó la prueba CaP-X para evaluar cómo los modelos basados en código manejan los robots. Según los autores, el mejor resultado en esas tareas lo obtuvo Gemini, lo que podría relacionarse con el énfasis de Google DeepMind en la multimodalidad y el trabajo con el mundo físico.

El grupo de investigación también desarrolló el entorno CaP-Gym, donde agentes de IA controlan robots simulados y reales, así como el marco CaP-Agent0. En varias tareas ese enfoque ayudó a los modelos basados en código a superar a sistemas entrenados específicamente para controlar directamente los movimientos del robot.

Spencer Huang de Nvidia, hijo de Jensen Huang, participa en proyectos y hackatones donde los ingenieros prueban controlar robots mediante codificación con IA. El objetivo de esos trabajos es simple: hacer la robótica más accesible no solo para especialistas concretos, sino también para personas que pueden describir la tarea por texto, por voz o mostrar la acción necesaria.

Así, cuanto más accesibles se vuelven las herramientas para controlar robots, más rápido la robótica sale de los laboratorios y se convierte en un campo donde la habilidad decisiva deja de ser trabajar con el hardware y pasa a ser la capacidad de describir con precisión la tarea a la máquina.