Los laboratorios de inteligencia artificial están utilizando cada vez más plataformas de evaluación basadas en la colaboración, como Chatbot Arena, para analizar las fortalezas y debilidades de sus modelos más recientes. Sin embargo, algunos expertos advierten que este enfoque presenta problemas éticos y académicos. En los últimos años, laboratorios como OpenAI, Google y Meta han recurrido a estas plataformas que reclutan usuarios para ayudar a evaluar las capacidades de los modelos que están por salir. Cuando un modelo obtiene una buena puntuación, el laboratorio a menudo la utiliza como prueba de una mejora significativa. Sin embargo, según Emily Bender, profesora de lingüística en la Universidad de Washington y coautora del libro “The AI Con”, este enfoque es defectuoso.
Bender critica especialmente a Chatbot Arena, que pide a los voluntarios que interactúen con dos modelos anónimos y elijan la respuesta que prefieren. “Para ser válido, un benchmark debe medir algo específico y tener validez de constructo; es decir, debe haber evidencia de que el constructo de interés está bien definido y que las mediciones realmente se relacionan con él”, explica Bender. Sin embargo, señala que Chatbot Arena no ha demostrado que votar por una respuesta en lugar de otra realmente se correlacione con las preferencias de los usuarios.
Asmelash Teka Hadgu, cofundador de la empresa de IA Lesan, también critica que los laboratorios de IA estén utilizando benchmarks como Chatbot Arena para “promover afirmaciones exageradas”. Menciona un reciente escándalo relacionado con el modelo Llama 4 Maverick de Meta, donde la compañía ajustó una versión del modelo para que tuviera un buen desempeño en Chatbot Arena, pero luego decidió no lanzarla y optó por una versión de menor rendimiento.
Hadgu sugiere que los benchmarks deberían ser dinámicos y distribuidos entre múltiples entidades independientes, como organizaciones o universidades, y adaptados a casos de uso específicos, como educación o salud. Además, él y Kristine Gloria, exdirectora de la Iniciativa de Tecnologías Emergentes e Inteligentes del Aspen Institute, argumentan que los evaluadores de modelos deberían ser compensados por su trabajo, aprendiendo de los errores de la industria de etiquetado de datos, conocida por sus prácticas explotadoras.
Gloria menciona que el proceso de evaluación colaborativa es valioso y se asemeja a iniciativas de ciencia ciudadana, pero advierte que los benchmarks no deberían ser la única métrica de evaluación. Con la rápida evolución de la industria, estos pueden volverse poco confiables rápidamente.
Matt Frederikson, CEO de Gray Swan AI, que organiza campañas de evaluación colaborativa, señala que los voluntarios se sienten atraídos por su plataforma por diversas razones, incluyendo la oportunidad de aprender nuevas habilidades. Sin embargo, reconoce que los benchmarks públicos “no son un sustituto” de las evaluaciones “privadas pagadas”.
Frederikson enfatiza la importancia de que tanto los desarrolladores de modelos como los creadores de benchmarks comuniquen claramente los resultados y sean receptivos a las críticas. Alex Atallah, CEO de OpenRouter, también destaca que las pruebas abiertas y los benchmarks por sí solos “no son suficientes”. Wei-Lin Chiang, estudiante de doctorado en IA en UC Berkeley y uno de los fundadores de LMArena, que mantiene Chatbot Arena, apoya el uso de otras pruebas y asegura que su objetivo es crear un espacio abierto y confiable para medir las preferencias de la comunidad sobre diferentes modelos de IA.
Chiang aclara que las discrepancias en los benchmarks, como la del modelo Maverick, no son fallas en el diseño de Chatbot Arena, sino malinterpretaciones de su política por parte de los laboratorios. LMArena ha tomado medidas para evitar futuras discrepancias, actualizando sus políticas para reforzar su compromiso con evaluaciones justas y reproducibles. “Nuestra comunidad no está aquí como voluntarios o evaluadores de modelos”, dice Chiang. “La gente usa LMArena porque les ofrecemos un lugar abierto y transparente para interactuar con la IA y dar retroalimentación colectiva. Mientras la tabla de clasificación refleje fielmente la voz de la comunidad, estamos abiertos a compartirla”.


