¿Cómo funcionan los modelos de aprendizaje automático? ¿Realmente “piensan” o “razonan” como lo entendemos nosotros? Esta es una pregunta filosófica y práctica, y un nuevo estudio sugiere que, al menos por ahora, la respuesta es un claro “no”. Un grupo de científicos de investigación en inteligencia artificial de Apple publicó su trabajo titulado “Entendiendo las limitaciones del razonamiento matemático en grandes modelos de lenguaje”.
El concepto básico de su investigación es fácil de entender. Imagina que te pido resolver un problema matemático simple:
“Oliver recoge 44 kiwis el viernes. Luego recoge 58 kiwis el sábado. El domingo, recoge el doble de kiwis que recogió el viernes. ¿Cuántos kiwis tiene Oliver?”
La respuesta es 44 + 58 + (44 * 2) = 190. Aunque los grandes modelos de lenguaje a veces fallan en aritmética, pueden resolver problemas como este con bastante fiabilidad. Pero, ¿qué pasaría si añades un dato extra, como este?
“Oliver recoge 44 kiwis el viernes. Luego recoge 58 kiwis el sábado. El domingo, recoge el doble de kiwis que recogió el viernes, pero cinco de ellos eran un poco más pequeños que el promedio. ¿Cuántos kiwis tiene Oliver?”
Es el mismo problema matemático, ¿verdad? Cualquier niño de primaria sabe que un kiwi pequeño sigue siendo un kiwi. Sin embargo, este dato adicional confunde incluso a los modelos de lenguaje más avanzados. Por ejemplo, GPT-o1-mini responde:
“… el domingo, 5 de estos kiwis eran más pequeños que el promedio. Necesitamos restarlos del total del domingo: 88 (kiwis del domingo) – 5 (kiwis pequeños) = 83 kiwis.”
Este es solo un ejemplo simple de cientos de preguntas que los investigadores modificaron ligeramente, y casi todas llevaron a grandes caídas en las tasas de éxito de los modelos.
¿Por qué sucede esto? Los investigadores proponen que esta falla confiable significa que los modelos no entienden realmente el problema. Su entrenamiento les permite responder correctamente en algunas situaciones, pero en cuanto se requiere un mínimo de “razonamiento”, como decidir si contar los kiwis pequeños, comienzan a dar respuestas extrañas e intuitivamente incorrectas. Como dicen los investigadores en su estudio:
“[E]stamos investigando la fragilidad del razonamiento matemático en estos modelos y demostramos que su rendimiento se deteriora significativamente a medida que aumenta el número de cláusulas en una pregunta. Hipotetizamos que esta disminución se debe a que los LLM actuales no son capaces de razonamiento lógico genuino; en cambio, intentan replicar los pasos de razonamiento observados en sus datos de entrenamiento.”
Esta observación es coherente con otras cualidades que a menudo se atribuyen a los LLM debido a su habilidad con el lenguaje. Cuando, estadísticamente, la frase “te amo” es seguida por “yo también te amo”, el LLM puede repetirlo fácilmente, pero eso no significa que realmente te ame. Aunque puede seguir cadenas complejas de razonamiento a las que ha estado expuesto, el hecho de que esta cadena pueda romperse por desviaciones superficiales sugiere que no razona tanto como replica patrones observados en sus datos de entrenamiento.
Mehrdad Farajtabar, uno de los coautores, explica el estudio de manera muy clara en una discusión en X. Un investigador de OpenAI, al elogiar el trabajo de Mirzadeh et al., objetó sus conclusiones, diciendo que se podrían lograr resultados correctos en todos estos casos de falla con un poco de ingeniería de indicaciones. Farajtabar, respondiendo con la amabilidad típica de los investigadores, señaló que aunque mejores indicaciones pueden funcionar para desviaciones simples, el modelo puede necesitar exponencialmente más datos contextuales para contrarrestar distracciones complejas, que, de nuevo, un niño podría señalar fácilmente.
¿Significa esto que los LLM no razonan? Tal vez. ¿Que no pueden razonar? Nadie lo sabe. Estos conceptos no están bien definidos, y las preguntas tienden a aparecer en la vanguardia de la investigación en IA, donde el estado del arte cambia a diario. Quizás los LLM “razonan”, pero de una manera que aún no reconocemos o sabemos controlar. Esto plantea una frontera fascinante en la investigación, pero también es una advertencia sobre cómo se está comercializando la IA. ¿Realmente puede hacer lo que afirman, y si lo hace, cómo? A medida que la IA se convierte en una herramienta de software cotidiana, este tipo de preguntas ya no son académicas.


