Un ejecutivo de Meta negó el lunes un rumor que afirmaba que la compañía entrenó sus nuevos modelos de inteligencia artificial para que se desempeñaran bien en ciertas pruebas, mientras ocultaba sus debilidades. Ahmad Al-Dahle, vicepresidente de inteligencia artificial generativa en Meta, aseguró en una publicación en X que no es cierto que Meta haya entrenado sus modelos Llama 4 Maverick y Llama 4 Scout en “conjuntos de prueba”.
Los conjuntos de prueba son colecciones de datos que se utilizan para evaluar el rendimiento de un modelo después de su entrenamiento. Si un modelo se entrena con un conjunto de prueba, sus resultados pueden parecer mejores de lo que realmente son. Durante el fin de semana, comenzó a circular un rumor sin fundamento en X y Reddit, que afirmaba que Meta había mejorado artificialmente los resultados de sus nuevos modelos. Este rumor parece haber surgido de una publicación en una red social china, donde un usuario decía haber renunciado a Meta en protesta por sus prácticas de evaluación.
Los informes sobre el bajo rendimiento de Maverick y Scout en ciertas tareas alimentaron el rumor, así como la decisión de Meta de usar una versión experimental y no publicada de Maverick para obtener mejores resultados en la evaluación LM Arena. Investigadores en X han notado diferencias notables en el comportamiento del Maverick que está disponible para descargar públicamente en comparación con el modelo alojado en LM Arena.
Al-Dahle reconoció que algunos usuarios están experimentando “calidad mixta” en Maverick y Scout a través de los diferentes proveedores de nube que alojan los modelos. “Como lanzamos los modelos tan pronto como estuvieron listos, esperamos que pasen varios días para que todas las implementaciones públicas se ajusten correctamente”, dijo Al-Dahle. “Seguiremos trabajando en nuestras correcciones de errores y en la incorporación de socios”.


