"La controversia de Maverick: ¿Cómo Meta engañó a la comunidad de IA en LM Arena?"

April 6, 2025 / Pablo

“La controversia de Maverick: ¿Cómo Meta engañó a la comunidad de IA en LM Arena?”

Meta lanzó recientemente un nuevo modelo de inteligencia artificial llamado Maverick, que ocupa el segundo lugar en LM Arena. Este es un sistema donde evaluadores humanos comparan las respuestas de diferentes modelos y eligen su favorita. Sin embargo, parece que la versión de Maverick que Meta utilizó en LM Arena es diferente de la que está disponible para los desarrolladores.

Varios investigadores de inteligencia artificial señalaron en X que Meta describió la versión de Maverick en LM Arena como una “versión experimental de chat”. Además, un gráfico en el sitio web oficial de Llama indica que las pruebas de LM Arena se realizaron con “Llama 4 Maverick optimizado para la conversación”.

Es importante mencionar que LM Arena no siempre ha sido la medida más confiable para evaluar el rendimiento de un modelo de IA. Por lo general, las empresas de IA no han ajustado sus modelos específicamente para obtener mejores resultados en LM Arena, o al menos no han admitido hacerlo.

El problema de adaptar un modelo a un estándar de evaluación y luego lanzar una versión “normal” es que dificulta a los desarrolladores predecir cómo funcionará el modelo en diferentes situaciones. Esto también puede resultar engañoso. Los estándares de evaluación, aunque limitados, deberían ofrecer una visión clara de las fortalezas y debilidades de un modelo en diversas tareas.

Investigadores en X han notado diferencias notables entre el Maverick que se puede descargar públicamente y el modelo que se encuentra en LM Arena. Por ejemplo, la versión de LM Arena parece usar muchos más emojis y ofrece respuestas mucho más largas.

Hemos contactado a Meta y a Chatbot Arena, la organización que mantiene LM Arena, para obtener comentarios sobre esta situación.

Pablo

"Microsoft lanza una versión jugable de Quake II en el navegador, demostrando el potencial de su plataforma de IA Copilot"

"El Reino Unido lidera la adopción de inteligencia artificial generativa en empresas, mientras que la implementación de AI agentic se acelera en todo el mundo"

Categorías

Tu fuente diaria de noticias e innovaciones en inteligencia artificial. Mantente conectado con el futuro, hoy.

Now Reading: “La controversia de Maverick: ¿Cómo Meta engañó a la comunidad de IA en LM Arena?”