Los laboratorios de inteligencia artificial, como OpenAI, afirman que sus modelos de IA “razonadores”, que pueden “pensar” paso a paso para resolver problemas, son más capaces en áreas específicas, como la física. Sin embargo, aunque esto parece ser cierto en general, estos modelos de razonamiento son mucho más costosos de evaluar, lo que dificulta verificar estas afirmaciones de manera independiente.
Según datos de Artificial Analysis, una empresa de pruebas de IA, evaluar el modelo de razonamiento o1 de OpenAI en una serie de siete pruebas populares cuesta $2,767.05. Estas pruebas incluyen MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 y MATH-500. Por otro lado, evaluar el modelo híbrido Claude 3.7 Sonnet de Anthropic en el mismo conjunto de pruebas costó $1,485.35, mientras que probar el modelo o3-mini de OpenAI costó $344.59. Algunos modelos de razonamiento son más económicos de evaluar que otros; por ejemplo, Artificial Analysis gastó solo $141.22 en el modelo o1-mini de OpenAI. Sin embargo, en promedio, estos modelos tienden a ser costosos.
En total, Artificial Analysis ha gastado aproximadamente $5,200 evaluando alrededor de una docena de modelos de razonamiento, casi el doble de lo que gastó analizando más de 80 modelos que no son de razonamiento ($2,400). El modelo GPT-4o de OpenAI, lanzado en mayo de 2024, costó solo $108.85 para su evaluación, mientras que el modelo Claude 3.6 Sonnet, su predecesor no razonador, costó $81.41.
George Cameron, cofundador de Artificial Analysis, comentó que la organización planea aumentar su gasto en evaluaciones a medida que más laboratorios de IA desarrollen modelos de razonamiento. “En Artificial Analysis, realizamos cientos de evaluaciones mensuales y dedicamos un presupuesto significativo a esto”, dijo Cameron. “Planeamos que este gasto aumente a medida que se lancen más modelos”.
No solo Artificial Analysis enfrenta costos crecientes en la evaluación de IA. Ross Taylor, CEO de la startup de IA General Reasoning, mencionó que recientemente gastó $580 evaluando Claude 3.7 Sonnet en aproximadamente 3,700 solicitudes únicas. Taylor estima que una sola evaluación de MMLU Pro, un conjunto de preguntas diseñado para medir las habilidades de comprensión del lenguaje de un modelo, habría costado más de $1,800. “Estamos avanzando hacia un mundo donde un laboratorio informa un porcentaje en un benchmark donde gastan una cierta cantidad de recursos, pero donde los recursos para académicos son mucho menores”, dijo Taylor en una publicación reciente en X. “Nadie podrá reproducir los resultados”.
¿Por qué son tan costosos de probar los modelos de razonamiento? Principalmente porque generan muchos “tokens”. Los tokens representan fragmentos de texto, como la palabra “fantástico” dividida en las sílabas “fan”, “tas” y “tic”. Según Artificial Analysis, el modelo o1 de OpenAI generó más de 44 millones de tokens durante las pruebas, alrededor de ocho veces más que los generados por GPT-4o. La mayoría de las empresas de IA cobran por el uso de sus modelos por token, por lo que se puede ver cómo estos costos se acumulan.
Los benchmarks modernos también tienden a generar muchos tokens porque incluyen preguntas que requieren tareas complejas y de múltiples pasos, según Jean-Stanislas Denain, investigador senior en Epoch AI, que desarrolla sus propios benchmarks. “Los benchmarks de hoy son más complejos, aunque el número de preguntas por benchmark ha disminuido en general”, comentó Denain. “A menudo intentan evaluar la capacidad de los modelos para realizar tareas del mundo real, como escribir y ejecutar código, navegar por internet y usar computadoras”.
Denain agregó que los modelos más caros han aumentado su costo por token con el tiempo. Por ejemplo, el modelo Claude 3 Opus de Anthropic fue el más caro al lanzarse en mayo de 2024, costando $70 por millón de tokens generados. Los modelos GPT-4.5 y o1-pro de OpenAI, lanzados a principios de este año, costaron $150 y $600 por millón de tokens, respectivamente. “Desde que los modelos han mejorado con el tiempo, es cierto que el costo para alcanzar un nivel de rendimiento determinado ha disminuido significativamente”, dijo Denain. “Pero si deseas evaluar los mejores modelos más grandes en cualquier momento, aún estás pagando más”.
Muchos laboratorios de IA, incluido OpenAI, ofrecen acceso gratuito o subsidiado a sus modelos para fines de evaluación. Sin embargo, esto puede influir en los resultados, según algunos expertos; incluso si no hay evidencia de manipulación, la mera sugerencia de la participación de un laboratorio de IA puede amenazar la integridad de la evaluación. “Desde un punto de vista científico, si publicas un resultado que nadie puede replicar con el mismo modelo, ¿es realmente ciencia?”, escribió Taylor en una publicación posterior en X. “¿Alguna vez fue ciencia?”


