Meta lanzó recientemente un nuevo modelo de inteligencia artificial llamado Maverick, que ocupa el segundo lugar en LM Arena. Este es un sistema donde evaluadores humanos comparan las respuestas de diferentes modelos y eligen su favorita. Sin embargo, parece que la versión de Maverick que Meta utilizó en LM Arena es diferente de la que está disponible para los desarrolladores.
Varios investigadores de inteligencia artificial señalaron en X que Meta describió la versión de Maverick en LM Arena como una “versión experimental de chat”. Además, un gráfico en el sitio web oficial de Llama indica que las pruebas de LM Arena se realizaron con “Llama 4 Maverick optimizado para la conversación”.
Es importante mencionar que LM Arena no siempre ha sido la medida más confiable para evaluar el rendimiento de un modelo de IA. Por lo general, las empresas de IA no han ajustado sus modelos específicamente para obtener mejores resultados en LM Arena, o al menos no han admitido hacerlo.
El problema de adaptar un modelo a un estándar de evaluación y luego lanzar una versión “normal” es que dificulta a los desarrolladores predecir cómo funcionará el modelo en diferentes situaciones. Esto también puede resultar engañoso. Los estándares de evaluación, aunque limitados, deberían ofrecer una visión clara de las fortalezas y debilidades de un modelo en diversas tareas.
Investigadores en X han notado diferencias notables entre el Maverick que se puede descargar públicamente y el modelo que se encuentra en LM Arena. Por ejemplo, la versión de LM Arena parece usar muchos más emojis y ofrece respuestas mucho más largas.
Hemos contactado a Meta y a Chatbot Arena, la organización que mantiene LM Arena, para obtener comentarios sobre esta situación.


