Un grupo de investigadores de la Universidad de California en San Diego ha revelado que jugar Super Mario Bros. es un desafío aún mayor para la inteligencia artificial que el famoso Pokémon. El Hao AI Lab llevó a cabo pruebas con diferentes modelos de IA en partidas en vivo de Super Mario Bros. El modelo Claude 3.7 de Anthropic fue el que mejor desempeño tuvo, seguido por Claude 3.5. En cambio, Gemini 1.5 Pro de Google y GPT-4o de OpenAI tuvieron dificultades.
Es importante mencionar que no se utilizó la versión original de 1985 del juego, sino que se ejecutó en un emulador con un marco llamado GamingAgent, que permitió a las IA controlar a Mario. Este sistema proporcionó instrucciones básicas a la IA, como “si hay un obstáculo o enemigo cerca, muévete/salta a la izquierda para esquivar”, junto con capturas de pantalla del juego. La IA generó comandos en Python para controlar a Mario.
El laboratorio Hao destacó que el juego obligó a cada modelo a “aprender” a planificar maniobras complejas y desarrollar estrategias de juego. Curiosamente, los modelos de razonamiento, como el o1 de OpenAI, que analizan problemas paso a paso, tuvieron un rendimiento inferior a los modelos que no utilizan razonamiento, a pesar de ser más fuertes en otras pruebas. Los investigadores explicaron que esto se debe a que los modelos de razonamiento tardan más en decidir sus acciones, lo cual es crucial en un juego como Super Mario Bros., donde un segundo puede marcar la diferencia entre un salto exitoso y una caída fatal.
Los juegos han sido utilizados durante décadas para evaluar la inteligencia artificial, pero algunos expertos cuestionan la validez de comparar las habilidades de juego de la IA con su avance tecnológico. A diferencia del mundo real, los juegos son abstractos y relativamente simples, ofreciendo una cantidad teórica infinita de datos para entrenar a la IA. Esta reciente tendencia en los benchmarks de juegos ha llevado a lo que Andrej Karpathy, científico investigador y miembro fundador de OpenAI, llamó una “crisis de evaluación”. En una publicación en X, expresó su incertidumbre sobre qué métricas de IA deberían considerarse en este momento, diciendo: “No sé realmente qué tan buenos son estos modelos ahora”. Al menos, podemos disfrutar viendo a la IA jugar Mario.


