OpenAI, Claude y Google vuelven a morderse los codos.
La empresa matriz de TikTok, ByteDance, creó un nuevo modelo de IA llamado UI-TARS, que puede usar la computadora de forma independiente y manejar tareas complejas. Los desarrolladores lanzaron dos versiones del sistema, con 7 y 72 mil millones de parámetros, entrenadas en una base de datos de aproximadamente 50 mil millones de tokens.
UI-TARS se probó en diez conjuntos de datos diferentes, donde superó a las soluciones OpenAI GPT-4o, Claude de Anthropic y Gemini de Google. Los especialistas de ByteDance y la Universidad de Tsinghua señalan que el sistema evoluciona continuamente: aprende de sus errores gracias a un mecanismo de autoanálisis y múltiples entrenamientos.
La tecnología se puede utilizar en computadoras, teléfonos inteligentes y en el navegador; entiende texto, imágenes y las acciones del usuario. En la pantalla, UI-TARS se abre en dos ventanas: a la izquierda se puede seguir el curso del pensamiento del sistema, y a la derecha trabaja con archivos, sitios web y programas.
En uno de los videos de demostración, a UI-TARS se le encomendó encontrar boletos de avión desde Seattle a Nueva York: salida el quinto día del mes siguiente, vuelo de regreso el día diez, y los resultados debían ordenarse por precio. El sistema ingresó al sitio web de Delta Airlines, escribió las ciudades de salida y llegada, especificó las fechas y aplicó filtros, explicando cada uno de sus pasos.
Cuando se le pidió a UI-TARS que instalara la extensión autoDocstring en el editor de VS Code, mostró una flexibilidad especial. El sistema esperó hasta que el editor se cargara por completo, encontró la sección de extensiones, repitió la acción cuando el primer intento resultó inexacto y supervisó la instalación hasta el final.
En la prueba VisualWebBench, que evalúa cómo las modelos trabajan con elementos de las páginas web, la versión de 72 mil millones de parámetros de UI-TARS obtuvo un 82.8%, superando a GPT-4o (78.5%) y a Claude 3.5 (78.2%). El sistema reconoce con precisión el texto y verifica la calidad de las páginas web.
En la prueba WebSRC, que evalúa qué tan bien el modelo comprende el contenido y la estructura de las páginas web, la versión de 7 mil millones de parámetros de UI-TARS alcanzó un 93.6%. En la prueba ScreenQA-short, que verifica la comprensión de interfaces móviles complejas, la versión de 72 mil millones obtuvo un resultado del 88.6%, superando a Qwen, Gemini, Claude 3.5 y GPT-4o.
UI-TARS también superó con éxito las pruebas ScreenSpot Pro y ScreenSpot v2, que determinan si el programa puede encontrar y reconocer elementos de la interfaz gráfica. Los desarrolladores también comprobaron cómo UI-TARS planifica acciones complejas en teléfonos inteligentes: para ello, utilizaron las pruebas OSWorld y AndroidWorld con 116 tareas de software en 20 aplicaciones.
Para entrenar el modelo, los investigadores recopilaron una gran base de capturas de pantalla con datos detallados sobre los elementos de la interfaz: sus tipos, descripciones, coordenadas, funciones y contenido de texto de varias fuentes. Gracias a esto, el sistema aprendió a analizar en detalle todo lo que sucede en la pantalla.
La tecnología también puede rastrear lo que cambia entre dos capturas de pantalla consecutivas; de esta manera, determina qué acciones se llevaron a cabo: presiones de teclas o clics del mouse. Con la tecnología set-of-mark, el sistema marca las áreas necesarias de la imagen con letras o números para facilitar la orientación.
UI-TARS incorpora dos tipos de memoria: a corto plazo y a largo plazo. Esto no solo le permite resolver las tareas actuales, sino también aplicar la experiencia acumulada para tomar decisiones más acertadas en el futuro. El sistema combina un pensamiento rápido e intuitivo con un análisis pausado.
Los creadores prestaron especial atención a que el modelo no pierda de vista el objetivo principal y sepa aprender mediante prueba y error. Hace suposiciones, las verifica y analiza los resultados antes de finalizar la tarea. Para esto, se agregaron ejemplos a la base de entrenamiento sobre cómo corregir errores y recuperarse después de fallos.
En comparación con otros sistemas, UI-TARS muestra resultados más consistentes al trabajar con diferentes dispositivos. Claude Computer Use se desempeña bien en tareas de navegador, pero se queda atrás en las plataformas móviles, mientras que esta IA es igualmente efectiva en ambos casos.