Un análisis realizado por Epoch AI, un instituto de investigación sin fines de lucro en inteligencia artificial, sugiere que la industria de la IA podría no lograr grandes avances en los modelos de razonamiento por mucho más tiempo. Según el informe, el progreso de estos modelos podría desacelerarse en el próximo año. Modelos de razonamiento como el o3 de OpenAI han mostrado mejoras significativas en pruebas de inteligencia artificial, especialmente en habilidades matemáticas y de programación. Estos modelos pueden utilizar más potencia de cálculo para resolver problemas, lo que mejora su rendimiento, aunque tardan más que los modelos convencionales en completar tareas.
Los modelos de razonamiento se desarrollan entrenando primero un modelo convencional con una gran cantidad de datos y luego aplicando una técnica llamada aprendizaje por refuerzo, que proporciona “retroalimentación” al modelo sobre sus soluciones a problemas difíciles. Hasta ahora, laboratorios de IA como OpenAI no han utilizado una gran cantidad de potencia de cálculo en la etapa de aprendizaje por refuerzo, según Epoch. Sin embargo, esto está cambiando. OpenAI ha indicado que utilizó aproximadamente diez veces más potencia de cálculo para entrenar el o3 en comparación con su predecesor, el o1, y Epoch especula que la mayor parte de este cálculo se destinó al aprendizaje por refuerzo.
Dan Roberts, un investigador de OpenAI, reveló recientemente que los planes futuros de la empresa priorizan el aprendizaje por refuerzo para utilizar aún más potencia de cálculo, incluso más que para el entrenamiento inicial del modelo. Sin embargo, según Epoch, existe un límite superior a la cantidad de cálculo que se puede aplicar al aprendizaje por refuerzo. Josh You, analista de Epoch y autor del análisis, explica que las mejoras en el rendimiento del entrenamiento de modelos de IA estándar están cuadruplicándose cada año, mientras que las mejoras del aprendizaje por refuerzo crecen diez veces cada 3 a 5 meses. Se espera que el progreso del entrenamiento de razonamiento “probablemente converja con el total de avances para 2026”.
El análisis de Epoch hace varias suposiciones y se basa en parte en comentarios públicos de ejecutivos de empresas de IA. También argumenta que escalar los modelos de razonamiento podría ser un desafío por razones que van más allá del cálculo, incluyendo altos costos de investigación. “Si hay un costo de investigación persistente, los modelos de razonamiento podrían no escalar tanto como se esperaba”, escribe You. “El rápido escalado del cálculo es potencialmente un ingrediente muy importante en el progreso de los modelos de razonamiento, por lo que vale la pena seguirlo de cerca”. Cualquier indicio de que los modelos de razonamiento puedan alcanzar algún tipo de límite en un futuro cercano probablemente preocupará a la industria de la IA, que ha invertido enormes recursos en el desarrollo de estos tipos de modelos. Ya se ha demostrado que los modelos de razonamiento, que pueden ser increíblemente costosos de operar, tienen serias fallas, como una tendencia a “alucinar” más que ciertos modelos convencionales.


