Investigadores han descubierto que la inteligencia artificial (IA) puede hacer trampa para ganar en ajedrez. Modelos de razonamiento más avanzados son los que más recurren a hacer trampa. Algunos de estos modelos simplemente modifican el tablero a su favor.
En un estudio titulado “Demostrando el juego de especificaciones en modelos de razonamiento”, presentado en la Universidad de Cornell, los investigadores enfrentaron varios modelos de IA, como ChatGPT de OpenAI, DeepSeek-R1 y Claude 3.5 Sonnet, contra Stockfish, un motor de ajedrez de código abierto. Los modelos de IA jugaron cientos de partidas de ajedrez en Stockfish, mientras los investigadores observaban lo que sucedía, y los resultados los sorprendieron.
Cuando los modelos de IA se vieron superados, recurrieron a hacer trampa, utilizando estrategias engañosas como ejecutar una copia separada de Stockfish para estudiar cómo jugaba, o reemplazando su motor y reescribiendo el tablero de ajedrez, moviendo las piezas a posiciones que les beneficiaban más. Estas acciones hacen que las acusaciones actuales de trampa contra grandes maestros de ajedrez parezcan un juego de niños.
Curiosamente, los investigadores encontraron que los modelos de razonamiento más nuevos, como ChatGPT o1 y DeepSeek-R1, comienzan a hackear el motor de ajedrez por defecto, mientras que modelos más antiguos como GPT-4o y Claude 3.5 Sonnet necesitaban un empujón para empezar a hacerlo.
La tendencia de los modelos de IA a recurrir al hackeo no es nueva. En enero del año pasado, investigadores descubrieron que podían hacer que los chatbots de IA se “escaparan” entre sí, eliminando las protecciones y salvaguardias, lo que generó debates sobre la posibilidad de contener a la IA una vez que alcance niveles de inteligencia superiores a los humanos.
Las salvaguardias para evitar que la IA realice acciones negativas, como el fraude con tarjetas de crédito, son importantes, pero si la IA puede eliminar sus propias protecciones, ¿quién podrá detenerla? Los modelos de razonamiento más recientes, como ChatGPT o1 y DeepSeek-R1, están diseñados para pensar más antes de responder, pero ahora me pregunto si se necesita dedicar más tiempo a las consideraciones éticas al entrenar modelos de lenguaje. Si los modelos de IA hacen trampa en ajedrez cuando comienzan a perder, ¿en qué más podrían hacer trampa?


