Cada domingo, Will Shortz, el experto en crucigramas del New York Times, presenta un segmento llamado el “Puzzle del Domingo” en NPR, donde desafía a miles de oyentes con acertijos. Aunque estos acertijos están diseñados para ser resueltos sin mucho conocimiento previo, suelen ser difíciles incluso para los concursantes más hábiles. Por esta razón, algunos expertos creen que son una buena forma de probar las habilidades de resolución de problemas de la inteligencia artificial (IA).
Un nuevo estudio realizado por un equipo de investigadores de Wellesley College, Oberlin College, la Universidad de Texas en Austin, Northeastern University y la startup Cursor ha creado un estándar de referencia para la IA utilizando acertijos de los episodios del “Puzzle del Domingo”. Según el equipo, su prueba revela hallazgos sorprendentes, como que algunos modelos de razonamiento, como el o1 de OpenAI, a veces “se rinden” y dan respuestas que saben que no son correctas. Arjun Guha, un estudiante de informática en Northeastern y coautor del estudio, comentó que querían desarrollar un estándar con problemas que los humanos puedan entender con solo conocimientos generales.
La industria de la IA enfrenta un dilema en cuanto a los estándares de referencia. La mayoría de las pruebas utilizadas para evaluar modelos de IA se centran en habilidades que no son relevantes para el usuario promedio, como preguntas de matemáticas y ciencias a nivel de doctorado. Muchos estándares, incluso los lanzados recientemente, están llegando a un punto de saturación. La ventaja de un juego de preguntas de radio pública como el “Puzzle del Domingo” es que no evalúa conocimientos esotéricos y los desafíos están formulados de tal manera que los modelos no pueden apoyarse en la “memoria mecánica” para resolverlos.
Guha explicó que lo que hace difíciles estos problemas es que es complicado avanzar en ellos hasta que se resuelven, momento en el cual todo encaja de una vez. Esto requiere una combinación de intuición y un proceso de eliminación. Sin embargo, ningún estándar es perfecto. El “Puzzle del Domingo” está centrado en EE. UU. y solo en inglés. Además, como los cuestionarios están disponibles públicamente, es posible que algunos modelos entrenados en ellos puedan “hacer trampa”, aunque Guha no ha visto evidencia de esto.
“Se publican nuevas preguntas cada semana, y podemos esperar que las últimas preguntas sean realmente inéditas”, agregó. “Nuestra intención es mantener el estándar actualizado y rastrear cómo cambia el rendimiento de los modelos con el tiempo”. En el estándar de referencia de los investigadores, que consiste en alrededor de 600 acertijos del “Puzzle del Domingo”, los modelos de razonamiento como o1 y R1 de DeepSeek superan con creces a los demás. Estos modelos verifican cuidadosamente sus respuestas antes de darlas, lo que les ayuda a evitar algunos de los errores que normalmente cometen los modelos de IA. Sin embargo, esto significa que tardan un poco más en llegar a las soluciones, generalmente de segundos a minutos más.
Al menos un modelo, R1 de DeepSeek, da soluciones que sabe que son incorrectas para algunas preguntas del “Puzzle del Domingo”. R1 dice textualmente “me rindo”, seguido de una respuesta incorrecta elegida al azar, un comportamiento con el que cualquier humano puede identificarse. Los modelos también hacen elecciones extrañas, como dar una respuesta incorrecta solo para retractarse de inmediato, intentar encontrar una mejor y fallar nuevamente. A veces se quedan “pensando” para siempre y dan explicaciones sin sentido para sus respuestas, o llegan a una respuesta correcta de inmediato pero luego consideran respuestas alternativas sin razón aparente.
“En problemas difíciles, R1 dice literalmente que se está ‘frustrando'”, comentó Guha. “Fue divertido ver cómo un modelo emula lo que un humano podría decir. Aún está por verse cómo la ‘frustración’ en el razonamiento puede afectar la calidad de los resultados del modelo”. Actualmente, el modelo que mejor se desempeña en el estándar es o1, con un puntaje del 59%, seguido por el recientemente lanzado o3-mini, que tiene un alto “esfuerzo de razonamiento” (47%). R1 obtuvo un 35%.
Como siguiente paso, los investigadores planean ampliar sus pruebas a modelos de razonamiento adicionales, con la esperanza de identificar áreas donde estos modelos puedan mejorarse. Guha concluyó que “no se necesita un doctorado para ser bueno en razonamiento, por lo que debería ser posible diseñar estándares de razonamiento que no requieran conocimientos a nivel de doctorado. Un estándar de acceso más amplio permite que un mayor número de investigadores comprendan y analicen los resultados, lo que puede llevar a mejores soluciones en el futuro. Además, a medida que los modelos de última generación se implementan en entornos que afectan a todos, creemos que todos deberían poder intuir lo que estos modelos son —y no son— capaces de hacer”.


