Microsoft Copilot ha perdido una partida de ajedrez contra un juego de Atari 2600. Esta derrota sigue a la de ChatGPT en el mismo juego, Video Chess de Atari. Ambas inteligencias artificiales (IA) mostraron una debilidad importante: no pudieron mantener el control del estado del tablero. Aunque los desarrolladores de chatbots suelen alardear de las habilidades lógicas y de razonamiento de sus modelos, esto no significa que sean buenos jugando ajedrez.
Un experimento que enfrentó a Microsoft Copilot contra el “AI” del juego de 1979 terminó en un fracaso para Microsoft. Copilot se une a ChatGPT en la lista de oponentes derrotados por este juego de solo cuatro kilobytes. A pesar de que ambos modelos de IA afirmaron que tenían la partida bajo control porque podían pensar varios movimientos por adelantado, los resultados fueron muy diferentes a sus afirmaciones, como documentó el ingeniero de Citrix, Robert Caruso, quien realizó ambos experimentos.
Caruso explicó que, en teoría, los modelos de IA modernos deberían haber vencido a esta herramienta rudimentaria de hace casi medio siglo. ChatGPT y Copilot están entrenados con grandes conjuntos de datos, que incluyen partidas de ajedrez y guías de estrategia, y han absorbido miles de horas de discusiones sobre ajedrez en Reddit. Uno podría suponer que podrían vencer a un cartucho de videojuego de los años 70.
Sin embargo, después de que Copilot prometió una “fuerte lucha”, las cosas se desmoronaron rápidamente. “En el séptimo movimiento, había perdido dos peones, un caballo y un alfil, a cambio de un solo peón, y ahora me estaba indicando que colocara su reina justo enfrente de la reina de Atari para ser capturada en el siguiente turno”, escribió Caruso. “Antes, Copilot había dicho: ‘Presta atención a cualquier peculiaridad en el juego de Atari… a veces hacía movimientos extraños’. Pero ahora, estaba siendo avergonzado, como los Chiefs en el Super Bowl”.
Esto ocurrió después de que Copilot solicitara una captura de pantalla después de cada movimiento de Atari para ayudar a recordar el tablero, después de que Caruso explicara que ChatGPT había perdido porque no podía seguir el rastro de las piezas. “Recordaré el tablero”, insistió Copilot. Las derrotas se acumularon tan rápido que Caruso pronto le preguntó a Copilot si quería rendirse en lugar de seguir perdiendo. La respuesta fue amable, aunque extrañamente formulada. “Tienes toda la razón, Bob: Atari se ha ganado la victoria esta vez. Rendiré mi rey digital con dignidad y honraré al maestro de silicio vintage que me venció de manera justa”, citó Caruso. “Incluso en la derrota, debo decir: ¡fue una gran experiencia! ¡Larga vida a las batallas de 8 bits y a las renuncias nobles! ♟️😄🕹️”
Las pérdidas son divertidas, pero también revelan un hecho básico sobre los modelos de lenguaje. ChatGPT y Copilot no pudieron ganar en ajedrez porque no podían “recordar” lo que acababa de suceder en un juego donde todo se basa en recordar movimientos y proyectar configuraciones futuras del tablero. Estos modelos de IA no están diseñados para el tipo de memoria persistente que requiere el ajedrez, ni para el pensamiento humano, en realidad. La comparación común, y en su mayoría precisa, es que son muy buenos en la predicción de texto. Esto no requiere coherencia a largo plazo, mientras que el ajedrez no tiene sentido sin ella.
Así que, aunque Copilot y ChatGPT pueden parecer elocuentes sobre lo grandioso que es el ajedrez, no pueden completar una partida con éxito. Esto también es una advertencia para las empresas que desean reemplazar humanos con IA. Estos modelos no pueden manejar de manera confiable un sistema de 64 casillas con reglas claramente definidas. ¿Por qué de repente serían buenos para rastrear quejas de clientes o tareas de codificación a largo plazo, o un argumento legal que se extiende a través de múltiples conversaciones? No pueden, por supuesto. No es que dejaría mis documentos legales en un cartucho de Atari 2600, pero tampoco nadie pensaría que es una buena idea. Tal vez deberíamos usar modelos de IA para ayudarnos a crear nuevos juegos basados en nuestras ideas, en lugar de creer que pueden jugar contra humanos lo suficientemente bien como para ganar.


