Arena, antes conocida como LM Arena, se ha convertido en pocos meses en el principal ranking público donde se comparan los modelos de inteligencia artificial más avanzados. Nacida como un proyecto de doctorado en la Universidad de California, Berkeley, la plataforma ha crecido tan rápido que ya está valorada en 1.700 millones de dólares.
Su función es ofrecer un “tablero” donde usuarios y expertos prueban diferentes modelos de IA —como los de OpenAI, Google o Anthropic— y votan cuál funciona mejor en tareas complejas. Esto la ha convertido en una referencia para el sector: los resultados del ranking influyen en la reputación de los modelos, en decisiones de inversión y en los tiempos de lanzamiento de nuevos productos.
Los cofundadores de Arena, Anastasios Angelopoulos y Wei-Lin Chiang, explican que su objetivo es crear un sistema de evaluación neutral y difícil de manipular, a diferencia de los benchmarks estáticos, que las empresas pueden optimizar de forma artificial. Hablan de “neutralidad estructural”: reglas y diseño de la plataforma que reducen sesgos y favorecen comparaciones justas.
Actualmente, Claude —el modelo de Anthropic— lidera las clasificaciones de usuarios expertos en ámbitos legales y médicos. Arena también está ampliando su enfoque más allá del simple chat, para medir el rendimiento de agentes autónomos, herramientas de programación y tareas más cercanas al mundo real, con un nuevo producto para empresas.
La entrevista completa con los fundadores puede verse y escucharse en el pódcast Equity de TechCrunch, disponible en YouTube, Apple Podcasts, Spotify y otras plataformas.


