La explosión de modelos de inteligencia artificial ha creado una nueva batalla: quién decide cuál es el mejor. En solo siete meses, Arena (antes LM Arena) ha pasado de ser un proyecto de doctorado en la Universidad de California, Berkeley, a convertirse en el principal ranking público de modelos de lenguaje avanzados (LLM), con una valoración de 1.700 millones de dólares.
En el pódcast Equity de TechCrunch, la periodista Rebecca Bellan conversa con los cofundadores de Arena, Anastasios Angelopoulos y Wei-Lin Chiang, sobre cómo funciona esta plataforma que influye en financiación, lanzamientos de producto y estrategias de comunicación de las grandes tecnológicas. Arena permite a usuarios reales enfrentarse a distintos modelos de IA y votar cuál responde mejor, generando una clasificación dinámica que, según sus creadores, es mucho más difícil de manipular que los clásicos tests estáticos.
El episodio aborda la gran pregunta: ¿puede Arena ser neutral cuando empresas como OpenAI, Google o Anthropic —cuyos modelos evalúa— también son inversores y socios? Los fundadores defienden un enfoque de “neutralidad estructural”, basado en reglas transparentes y un diseño que reduce sesgos a pesar de la presión de los gigantes de la IA.
La conversación también adelanta los próximos pasos de la startup: ir más allá del simple chat para evaluar agentes autónomos, herramientas de programación y tareas del mundo real, con un nuevo producto para empresas. Hoy, el modelo Claude lidera el ranking de casos de uso expertos, especialmente en ámbitos legales y médicos, pero Arena ya se prepara para un futuro en el que los agentes de IA, y no solo los LLM clásicos, dominen los puestos más altos del tablero.


