Claude contra Pokémon Red: la IA lucha con un juego infantil en vivo

Claude contra Pokémon Red: la IA lucha con un juego infantil en vivo

El streaming de Anthropic, una oportunidad única para "mirar dentro de la mente" de una máquina.

image

Ayer, 25 de febrero, Anthropic lanzó en Twitch la transmisión en vivo "Claude Plays Pokémon", donde su modelo más reciente de inteligencia artificial, Claude 3.7 Sonnet, intenta completar Pokémon Red. Lo que inicialmente se pensó como una prueba técnica de las capacidades de la IA rápidamente se convirtió en algo más: cientos de espectadores observaron con fascinación cómo una red neuronal moderna se enfrentaba (o no) a un juego de los años 90.

Los investigadores de inteligencia artificial llevan años utilizando videojuegos para probar sus desarrollos, desde Street Fighter hasta Pictionary. A menudo, estas pruebas son más entretenimiento que un análisis riguroso. Sin embargo, Anthropic asegura que Pokémon Red ha resultado ser un desafío realmente útil para Claude 3.7 Sonnet, ya que el juego exige estrategias complejas y toma de decisiones a largo plazo.

La gran diferencia entre Claude 3.7 Sonnet y sus predecesores es su capacidad de "razonamiento". Modelos como o3-mini de OpenAI y R1 de DeepSeek también han sido diseñados con esta capacidad, pero los resultados varían enormemente. La versión anterior, Claude 3.5 Sonnet, ni siquiera podía salir de la casa del protagonista en Pallet Town: chocaba constantemente contra las paredes y no comprendía las mecánicas básicas del juego. En cambio, la nueva versión ya ha avanzado significativamente, ganando tres medallas de gimnasio, lo que demuestra una mejora notable en su habilidad para resolver tareas secuenciales y mantener objetivos a largo plazo en su memoria.

Aun así, el modelo sigue teniendo dificultades en muchas situaciones. En un momento, por ejemplo, Claude quedó atascado frente a una simple pared rocosa y no logró encontrar la manera de superarla: intentó atravesarla una y otra vez sin éxito. Esto resultó especialmente irónico, ya que antes había resuelto acertijos más complejos sin problemas. Un espectador comentó con sarcasmo: "¿Quién ganará, una IA en la que se invirtieron miles de horas de desarrollo o una simple roca?".

El ritmo de Claude es a la vez frustrante y fascinante. Se mueve con una lentitud extrema, analizando cada acción como si estuviera en cámara lenta, lo que recuerda al legendario Pokémon Slowpoke. No se le puede juzgar con demasiada dureza: los humanos reaccionamos de manera intuitiva e inmediata a los estímulos del juego, mientras que Claude examina minuciosamente todas las posibilidades antes de tomar una decisión.

El stream tiene un formato interesante: la pantalla está dividida en dos partes. A la izquierda, se muestran los "pensamientos" de Claude, es decir, su proceso de análisis y toma de decisiones; a la derecha, se muestra el juego en tiempo real. Es una oportunidad única para entender cómo funcionan las redes neuronales de este tipo: qué factores tienen en cuenta, cómo generan hipótesis y cómo llegan a sus conclusiones.

Un momento particularmente divertido ocurrió cuando Claude intentó encontrar al Profesor Oak en su laboratorio. Rodeado de varios personajes, la IA se confundió y no logró identificar correctamente al NPC correcto entre los diferentes sprites. En su análisis interno, Claude concluyó: "Veo un nuevo personaje debajo de mí: una persona con cabello negro, parece llevar una bata blanca, en las coordenadas (2, 10). ¡Podría ser el Profesor Oak! Iré a hablar con él". Pero en lugar de acercarse al profesor, se dirigió repetidamente a otro personaje con el que ya había hablado varias veces.

Este tipo de errores muestran que, a pesar de los avances en IA, los modelos aún tienen problemas con la memoria a largo plazo y el reconocimiento contextual. Mientras algunos de los aproximadamente mil espectadores en el chat se frustraban, otros intentaban calmar los ánimos: "Relájense, entramos y salimos del laboratorio de Oak como diez veces antes de descubrir qué hacer". Esto revela un aspecto social interesante: la audiencia comienza a tratar a la IA casi como un ser vivo, empatizando con sus fracasos y celebrando sus logros.

El eco de Twitch Plays Pokémon

Es imposible no recordar otro experimento similar de hace diez años: Twitch Plays Pokémon. En febrero de 2014, un programador anónimo lanzó un stream inusual en el que los espectadores controlaban colectivamente al protagonista introduciendo comandos simples (arriba, abajo, izquierda, derecha, A, B, Start) en el chat. Esto generó un caos absoluto: el personaje caminaba en círculos, chocaba contra las paredes y tomaba decisiones aparentemente absurdas. Sin embargo, de alguna manera, la "inteligencia colectiva" logró avanzar lentamente en la historia.

La historia de Claude Plays Pokémon tampoco es la primera vez que una IA intenta dominar el mundo Pokémon. En octubre de 2023, el ingeniero de software Peter Whidden, de Seattle, publicó en su canal de YouTube los resultados de otro experimento similar, pero con un enfoque completamente diferente al de Anthropic.

En lugar de usar un modelo de lenguaje como Claude, Whidden diseñó un sistema especializado basado en aprendizaje por refuerzo. Este método permite que una inteligencia artificial aprenda mediante prueba y error, recibiendo "recompensas" por acciones exitosas y "castigos" por errores, similar a cómo se entrena a los animales.

El proceso de aprendizaje fue extremadamente largo: la IA pasó más de 50 000 horas jugando, lo que equivale a seis años de juego ininterrumpido. Por supuesto, Whidden no estuvo supervisando todo ese tiempo: el sistema funcionaba automáticamente, a menudo en velocidad acelerada.

Sorprendentemente, incluso después de una cantidad de entrenamiento tan extensa, la IA mostró comportamientos inusuales. En ocasiones, se quedaba "hipnotizada" observando los paisajes del juego, ignorando las misiones principales, como si fuera un niño distraído que se pierde en los patrones de la pared en lugar de hacer su tarea.

¿Espectadores o participantes?

En 2025, las cosas han cambiado. Ya no somos compañeros de equipo de la IA, sino meros espectadores, observando cómo una máquina "suda" con un juego que muchos de nosotros completamos sin esfuerzo a los cinco años. En lugar de crear contenido junto con la inteligencia artificial, ahora simplemente consumimos lo que generan los algoritmos, aunque sea de manera torpe y errática.

El stream de Claude nos recuerda que, aunque la inteligencia artificial ha avanzado enormemente, todavía tiene dificultades con tareas que para los humanos son triviales. Sin embargo, también plantea una pregunta más amplia: en este futuro dominado por la automatización, ¿seguiremos siendo los jugadores o nos convertiremos en simples observadores de las creaciones de las máquinas?

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!