¿Pueden Pictionary y Minecraft poner a prueba el ingenio de los modelos de IA?

Chatbot icon on the digital futuristic blue wavy background. 3d Illustration with bright colors and pixelated technology.

La mayoría de los puntos de referencia de IA no nos dicen mucho. Hacen preguntas que pueden resolverse mediante la memorización o cubren temas que no son relevantes para la mayoría de los usuarios.

Por eso, algunos entusiastas de la IA están recurriendo a los juegos como una forma de probar las habilidades de resolución de problemas de la IA.

Paul Calcraft, un desarrollador independiente de IA, ha creado una aplicación en la que dos modelos de IA pueden jugar entre sí un juego similar a Pictionary. Un modelo garabatea, mientras que el otro modelo intenta adivinar qué representa el garabato.

“Pensé que esto sonaba súper divertido y potencialmente interesante desde el punto de vista de las capacidades del modelo”, dijo Calcraft a TechCrunch en una entrevista. “Así que me senté en casa un sábado nublado y lo hice”.

Calcraft se inspiró en un proyecto similar del programador británico Simon Willison que encargó a los modelos representar un dibujo vectorial de un pelícano en bicicleta. Willison, al igual que Calcraft, eligió un desafío que creía que obligaría a los modelos a “pensar” más allá del contenido de sus datos de entrenamiento.

Créditos de imagen:Pablo Calcraft

“La idea es tener un punto de referencia que no se pueda reproducir”, dijo Calcraft. “Un punto de referencia que no se puede superar memorizando respuestas específicas o patrones simples que se hayan visto antes durante el entrenamiento”.

Minecraft también está en esta categoría de “no jugable”, o eso cree Adonis Singh, de 16 años. Ha creado una herramienta, Mcbench, que le da a un modelo control sobre un personaje de Minecraft y prueba su capacidad para diseñar estructuras, siguiendo la línea del Proyecto Malmo de Microsoft.

“Creo que Minecraft pone a prueba los modelos en cuanto a ingenio y les da más agencia”, dijo a TechCrunch. “No es tan restringido y saturado como (otros) puntos de referencia”.

Usar juegos para comparar la IA no es nada nuevo. La idea se remonta a décadas atrás: el matemático Claude Shannon argumentó en 1949 que juegos como el ajedrez eran un desafío digno para el software “inteligente”. Más recientemente, DeepMind de Alphabet desarrolló un modelo que podía jugar Pong y Breakout; OpenAI entrenó IA para competir en partidos de Dota 2; y Meta diseñó un algoritmo que podría defenderse de los jugadores profesionales de Texas Hold’em.

Pero lo que es diferente ahora es que los entusiastas están conectando grandes modelos de lenguaje (LLM, por sus siglas en inglés) (modelos con la capacidad de analizar texto, imágenes y más) a juegos para probar qué tan buenos son en lógica.

Hay una gran cantidad de LLM, desde Gemini y Claude hasta GPT-4o, y todos tienen diferentes “vibraciones”, por así decirlo. Se “sienten” diferentes de una interacción a otra, un fenómeno que puede ser difícil de cuantificar.

Mcbanco — Tenga en cuenta el error tipográfico; No existe un modelo como el Claude 3.6 Sonnet. **Créditos de imagen:**Adonis Singh

“Se sabe que los LLM son sensibles a las formas particulares en que se formulan las preguntas y, en general, son poco confiables y difíciles de predecir”, dijo Calcraft.

A diferencia de los puntos de referencia basados en texto, los juegos proporcionan una forma visual e intuitiva de comparar cómo funciona y se comporta un modelo, dijo Matthew Guzdial, investigador de inteligencia artificial y profesor de la Universidad de Alberta.

“Podemos pensar que cada punto de referencia nos brinda una simplificación diferente de la realidad centrada en tipos particulares de problemas, como el razonamiento o la comunicación”, dijo. “Los juegos son simplemente otras formas de tomar decisiones con IA, por lo que la gente los usa como cualquier otro enfoque”.

Aquellos familiarizados con la historia de la IA generativa notarán cuán similar es Pictionary a las redes generativas adversarias (GAN), en las que un modelo creador envía imágenes a un modelo discriminador que luego las evalúa.

Calcraft cree que Pictionary puede capturar la capacidad de un LLM para comprender conceptos como formas, colores y preposiciones (por ejemplo, el significado de “en” frente a “en”). No iría tan lejos como para decir que el juego es una prueba confiable de razonamiento, pero argumentó que ganar requiere estrategia y la capacidad de comprender pistas, ambas cosas que los modelos no encuentran fácil.

“También me gusta mucho la naturaleza casi conflictiva del juego Pictionary, similar a las GAN, donde tienes dos roles diferentes: uno dibuja y el otro adivina”, dijo. “El mejor para dibujar no es el más artístico, sino el que puede transmitir más claramente la idea a la audiencia de otros LLM (¡incluidos los modelos más rápidos y mucho menos capaces!).”

“El Pictionary es un problema de juguete que no es inmediatamente práctico ni realista”, advirtió Calcraft. “Dicho esto, creo que la comprensión espacial y la multimodalidad son elementos críticos para el avance de la IA, por lo que LLM Pictionary podría ser un pequeño paso inicial en ese viaje”.

Singh cree que Minecraft también es un punto de referencia útil y puede medir el razonamiento en los LLM. “A partir de los modelos que he probado hasta ahora, los resultados literalmente se alinean perfectamente con cuánto confío en el modelo para algo relacionado con el razonamiento”, dijo.

Otros no están tan seguros.

Mike Cook, investigador de la Universidad Queen Mary especializado en IA, no cree que Minecraft sea particularmente especial como banco de pruebas de IA.

“Creo que parte de la fascinación por Minecraft proviene de personas fuera de la esfera de los juegos que tal vez piensan que, debido a que parece ‘el mundo real’, tiene una conexión más cercana con el razonamiento o la acción del mundo real”, dijo Cook a TechCrunch. “Desde una perspectiva de resolución de problemas, no es tan diferente a un videojuego como Fortnite, Stardew Valley o World of Warcraft. Simplemente tiene un revestimiento diferente en la parte superior que lo hace parecer más un conjunto de tareas cotidianas como construir cosas o explorar”.

Según Cook, incluso los mejores sistemas de IA para juegos generalmente no se adaptan bien a nuevos entornos y no pueden resolver fácilmente problemas que no han visto antes. Por ejemplo, es poco probable que un modelo que sobresale en Minecraft juegue Doom con alguna habilidad real.

“Creo que las buenas cualidades que tiene Minecraft desde la perspectiva de la IA son señales de recompensa extremadamente débiles y un mundo de procedimientos, lo que significa desafíos impredecibles”, continuó Cook. “Pero en realidad no es mucho más representativo del mundo real que cualquier otro videojuego”.

Siendo ese el caso, seguro que hay algo fascinante en ver a los LLM construir castillos.