Un nuevo estudio de un laboratorio de inteligencia artificial llamado Cohere, junto con Stanford, MIT y Ai2, acusa a LM Arena, la organización detrás del popular benchmark de inteligencia artificial Chatbot Arena, de favorecer a un grupo selecto de empresas de IA en detrimento de sus competidores. Según los autores, LM Arena permitió que algunas de las principales empresas de IA, como Meta, OpenAI, Google y Amazon, probaran en privado varias versiones de sus modelos de IA y no publicaran los puntajes de los que tuvieron un rendimiento más bajo. Esto facilitó que estas empresas alcanzaran posiciones destacadas en la clasificación de la plataforma, algo que no se ofreció a todas las empresas, según los autores.
Sara Hooker, vicepresidenta de investigación de IA en Cohere y coautora del estudio, comentó que “solo un puñado de empresas supo que esta prueba privada estaba disponible, y la cantidad de pruebas privadas que algunas recibieron es mucho mayor que la de otras”. Chatbot Arena, creado en 2023 como un proyecto de investigación académica de UC Berkeley, se ha convertido en un referente para las empresas de IA. Funciona poniendo las respuestas de dos modelos de IA diferentes lado a lado en una “batalla” y pidiendo a los usuarios que elijan la mejor. No es raro ver modelos no publicados compitiendo en la arena bajo un seudónimo. Los votos a lo largo del tiempo contribuyen al puntaje de un modelo y, por lo tanto, a su posición en la clasificación de Chatbot Arena.
A pesar de que muchos actores comerciales participan en Chatbot Arena, LM Arena ha sostenido que su benchmark es imparcial y justo. Sin embargo, los autores del estudio afirman haber encontrado evidencia de lo contrario. Según ellos, Meta pudo probar en privado 27 variantes de modelos en Chatbot Arena entre enero y marzo, justo antes del lanzamiento de su modelo Llama 4. Al lanzarlo, Meta solo reveló públicamente el puntaje de un solo modelo, que casualmente ocupaba un lugar destacado en la clasificación.
Ion Stoica, cofundador de LM Arena y profesor en UC Berkeley, respondió al estudio diciendo que estaba lleno de “inexactitudes” y “análisis cuestionables”. LM Arena reafirmó su compromiso con evaluaciones justas y comunitarias, invitando a todos los proveedores de modelos a enviar más modelos para pruebas. Armand Joulin, investigador principal en Google DeepMind, también comentó que algunos de los números del estudio eran inexactos, afirmando que Google solo envió un modelo de IA Gemma 3 para pruebas previas al lanzamiento. Hooker prometió que los autores harían correcciones.
El estudio comenzó en noviembre de 2024, tras enterarse de que algunas empresas de IA podrían estar recibiendo acceso preferencial a Chatbot Arena. Los autores analizaron más de 2.8 millones de batallas en un período de cinco meses y encontraron que LM Arena permitió a ciertas empresas, como Meta, OpenAI y Google, recopilar más datos al hacer que sus modelos aparecieran en un mayor número de “batallas”. Esto les dio una ventaja injusta, según los autores. Usar datos adicionales de LM Arena podría mejorar el rendimiento de un modelo en otro benchmark, Arena Hard, en un 112%. Sin embargo, LM Arena aclaró que el rendimiento en Arena Hard no se correlaciona directamente con el rendimiento en Chatbot Arena.
Hooker mencionó que no está claro cómo algunas empresas de IA pudieron recibir acceso prioritario, pero enfatizó que LM Arena debe aumentar su transparencia. LM Arena también rechazó varias de las sugerencias del estudio, argumentando que ha publicado información sobre pruebas previas al lanzamiento desde marzo de 2024. Además, la organización indicó que no tiene sentido mostrar puntajes de modelos que no están disponibles públicamente, ya que la comunidad de IA no puede probarlos por sí misma.
Los investigadores sugirieron que LM Arena podría ajustar la tasa de muestreo de Chatbot Arena para asegurar que todos los modelos aparezcan en el mismo número de batallas. LM Arena ha mostrado disposición a esta recomendación y planea crear un nuevo algoritmo de muestreo. Este estudio llega semanas después de que Meta fuera acusada de manipular benchmarks en Chatbot Arena alrededor del lanzamiento de sus modelos Llama 4. Meta optimizó uno de estos modelos para “conversacionalidad”, logrando un puntaje impresionante, pero nunca lanzó el modelo optimizado, y la versión básica tuvo un rendimiento mucho peor. En ese momento, LM Arena sugirió que Meta debería haber sido más transparente en su enfoque de benchmarking. Recientemente, LM Arena anunció que lanzará una empresa y planea recaudar capital de inversores. Este estudio aumenta la atención sobre la confianza en organizaciones de benchmarks privadas y si pueden evaluar modelos de IA sin la influencia de las corporaciones.


