De la receta de curry a las obras de Da Vinci: la IA Astra lo entiende todo

De la receta de curry a las obras de Da Vinci: la IA Astra lo entiende todo

Reporte desde el laboratorio secreto de DeepMind.

image

Google DeepMind ha presentado una nueva familia de productos con inteligencia artificial, cuya estrella principal es el Project Astra, una aplicación experimental capaz de ver, escuchar y hablar con el usuario. Un corresponsal de MIT Technology Review asistió a una demostración privada de esta tecnología en la oficina londinense de la compañía. Es simbólico que la presentación se llevara a cabo el mismo día en que el director general de DeepMind, Demis Hassabis, recibía el Premio Nobel en Suecia.

En la zona de King's Cross, tras una puerta sin distintivos, se encuentra una sala con una enorme inscripción "ASTRA" en la pared. En la oficina, entre las mesas de los programadores e investigadores, pasea libremente un perro llamado Charlie, la mascota no oficial del proyecto liderado por Bibo Xu y Greg Wayne. Los empleados han diseñado intencionadamente el espacio con la atmósfera de un laboratorio secreto.

En las primeras etapas de desarrollo, el equipo invitó a un barman profesional, cuyas clases magistrales sobre la preparación de cócteles fueron grabadas y utilizadas para el aprendizaje inicial del modelo.

Los creadores llaman a Astra un "asistente universal", aunque todavía están definiendo con precisión este concepto. Greg Wayne lo explica de manera simple: están desarrollando una IA con ojos, oídos y voz, capaz de estar siempre cerca para ayudar en cualquier tarea.

Para las demostraciones, recrearon dos espacios en la oficina: un bar y una galería de arte. Durante la presentación, Bibo Xu apuntó su teléfono hacia un libro de cocina con una receta de curry de pollo. El sistema, sorprendentemente, la saludó en chino, recordando una solicitud previa de una conversación anterior.

A diferencia de los asistentes de voz habituales, la interacción con Astra se asemeja a una conversación con una persona. El sistema no requiere comandos específicos ni palabras clave, entiende el contexto y responde sin problemas si es interrumpido para aclaraciones o correcciones.

El modelo almacena en su memoria no solo el historial de diálogos, sino también los últimos 10 minutos de vídeo (es decir, la situación mostrada a través de la cámara). En un vídeo promocional, incluso señaló dónde estaban unas gafas que había detectado en una mesa segundos antes. Sin embargo, estas capacidades no fueron demostradas en vivo.

Al analizar la receta, Astra inicialmente omitió algunas especias de la lista, pero corrigió el error de inmediato tras un comentario. Luego ayudó a seleccionar un vino para el plato, recomendando un Rioja, explicando su elección y verificando los precios a través de Google Search.

En condiciones reales, las capacidades de Astra resultaron aún más amplias: el sistema puede leer códigos en la pantalla del teléfono y memorizarlos, identificar rutas de autobuses en tránsito y describir obras de arte por las que pasa el usuario.

En la galería improvisada, Astra examinó imágenes de famosas obras de arte en las pantallas. El sistema mostró una razonable cautela: cuando el periodista intentó provocarlo con conjeturas sobre ubicaciones, se negó a especular. No obstante, Astra identificó correctamente que las pantallas mostraban copias de los originales.

En el núcleo de Project Astra funciona Gemini 2.0, la versión actualizada del modelo de lenguaje de Google DeepMind. Según la compañía, es el doble de rápido que su predecesor y lo supera en pruebas estándar, incluida la MMLU-Pro. Estas pruebas abarcan un amplio espectro de disciplinas, desde matemáticas y física hasta psicología y filosofía.

La nueva versión de Gemini se basa en un avanzado sistema de gestión de agentes, lo que le permite coordinar fácilmente varios servicios de Google, como Search, Maps y Lens, para resolver tareas complejas.

Junto con Astra, la compañía presentó otros desarrollos: Mariner, un asistente para la navegación web basado en Gemini; Jules, un asistente para programadores; y Gemini for Games, un consejero para jugadores. Recientemente, también se lanzaron el generador de vídeos Veo, el creador de imágenes Imagen 3 actualizado y el chip cuántico Willow.

Las cuestiones de privacidad preocupan especialmente a los expertos. María Liakata, de la Universidad Queen Mary de Londres, señala los riesgos de la vigilancia encubierta a través de estos sistemas. También destaca la falta de estándares unificados para evaluar estas tecnologías.

Los desarrolladores admiten que la diferencia en la calidad de las principales modelos lingüísticas de diferentes compañías es cada vez menor. Ahora, la atención principal se centra no tanto en mejorar los indicadores básicos, sino en ampliar las aplicaciones prácticas de los sistemas de inteligencia artificial.

Google DeepMind ha asegurado que supervisa cuidadosamente la seguridad de sus desarrollos y la protección de los datos personales. Según el director de innovación, Don Bloxwich, antes de lanzar los productos al mercado, la compañía los probará con usuarios de confianza. Google también ha previsto la posibilidad de desactivar o retirar rápidamente las tecnologías si surgen problemas inesperados.

Aún no se ha revelado cuándo estará disponible públicamente Project Astra. En cuanto a las gafas inteligentes con este modelo, siguen siendo una perspectiva lejana, aunque la compañía ya muestra prototipos funcionales.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!