Un reciente benchmark de la startup Mercor, diseñado para medir qué tan bien se desempeñan los agentes de inteligencia artificial en tareas profesionales complejas —como análisis jurídico y corporativo—, mostró hace apenas unas semanas resultados muy pobres: ningún modelo superaba el 25% de aciertos. Eso permitía concluir que, por ahora, los abogados podían estar tranquilos.
Sin embargo, la situación cambió rápidamente con el lanzamiento del modelo Opus 4.6 de Anthropic. En las pruebas de Mercor, este nuevo sistema casi alcanza el 30% de éxito en evaluaciones de un solo intento y llega a un promedio del 45% cuando se le permiten varios intentos para resolver el mismo problema. Parte de esta mejora podría deberse a nuevas funciones “agenticas”, como los llamados “enjambres de agentes”, que coordinan varios agentes de IA para abordar tareas de varios pasos.
El salto es notable si se compara con el anterior estado del arte: según el CEO de Mercor, Brendan Foody, pasar de un 18,4% a un 29,8% en pocos meses es “una locura” y confirma que el progreso de los modelos fundacionales sigue acelerándose. Aun así, un 30% está lejos del rendimiento humano experto, de modo que los profesionales del derecho no serán sustituidos de la noche a la mañana. Pero sí tienen muchos más motivos para tomarse en serio la competencia futura de la IA que hace solo un mes.


