Una discrepancia entre los resultados de pruebas de OpenAI para su modelo de inteligencia artificial o3 ha generado dudas sobre la transparencia y las prácticas de evaluación de la empresa. Cuando OpenAI presentó o3 en diciembre, afirmó que el modelo podía responder más de una cuarta parte de las preguntas de FrontierMath, un conjunto difícil de problemas matemáticos. Este resultado superó a la competencia, ya que el siguiente mejor modelo solo logró responder alrededor del 2% de las preguntas correctamente. Mark Chen, director de investigación de OpenAI, comentó en una transmisión en vivo que “hoy en día, todas las ofertas tienen menos del 2% [en FrontierMath]”. Sin embargo, se descubrió que el 25% mencionado era probablemente un límite superior, logrado por una versión de o3 con más potencia de computación que el modelo que OpenAI lanzó públicamente la semana pasada.
Epoch AI, el instituto de investigación detrás de FrontierMath, publicó el viernes los resultados de sus pruebas independientes de o3. Epoch encontró que o3 obtuvo alrededor del 10%, muy por debajo del puntaje más alto que OpenAI había afirmado. Esto no significa que OpenAI haya mentido, ya que los resultados que la empresa publicó en diciembre coinciden con el puntaje observado por Epoch. Epoch también señaló que su configuración de pruebas probablemente difiere de la de OpenAI y que utilizó una versión actualizada de FrontierMath para sus evaluaciones.
La Fundación ARC Prize, que probó una versión previa de o3, mencionó en una publicación que el modelo público de o3 “es un modelo diferente […] ajustado para uso en chat/producto”, lo que respalda el informe de Epoch. En general, se espera que las versiones con mayor capacidad de computación logren mejores puntajes en las pruebas. Aunque la versión pública de o3 no cumple con las promesas de OpenAI, los modelos o3-mini-high y o4-mini superan a o3 en FrontierMath, y OpenAI planea lanzar una variante más potente, o3-pro, en las próximas semanas.
Este caso es un recordatorio de que los resultados de las pruebas de inteligencia artificial no siempre deben tomarse al pie de la letra, especialmente cuando provienen de empresas que tienen servicios que vender. Las “controversias” en las pruebas de rendimiento se están volviendo comunes en la industria de la IA, ya que los proveedores compiten por captar la atención con nuevos modelos. En enero, Epoch fue criticado por esperar a revelar su financiamiento de OpenAI hasta después de que la empresa anunciara o3. Muchos académicos que contribuyeron a FrontierMath no fueron informados de la participación de OpenAI hasta que se hizo público. Más recientemente, xAI de Elon Musk fue acusado de publicar gráficos de pruebas engañosos para su último modelo de IA, Grok 3. Este mes, Meta admitió haber promocionado puntajes de pruebas para una versión de un modelo que difería del que la empresa puso a disposición de los desarrolladores.


