Casi dos años después de que el CEO de Microsoft, Satya Nadella, anunciara que la IA sustituiría gran parte del trabajo de cuello blanco, la realidad va mucho más lenta. Un nuevo estudio de la empresa de datos Mercor, publicado como benchmark Apex-Agents, pone a prueba a los modelos más avanzados en tareas reales de consultoría, banca de inversión y derecho, diseñadas por profesionales y evaluadas con sus propios criterios.
El resultado: todos suspenden con claridad. Incluso los mejores sistemas, como Gemini 3 Flash (24% de aciertos en un único intento) y GPT‑5.2 (23%), apenas resuelven correctamente una de cada cuatro tareas. Otros modelos como Opus 4.5, Gemini 3 Pro y GPT‑5 se quedan alrededor del 18%. La mayoría de las veces, las respuestas son erróneas o inexistentes.
Según el investigador Brendan Foody, la principal debilidad está en coordinar información dispersa en múltiples fuentes y herramientas —por ejemplo, Slack, Google Drive y otros sistemas—, justo como ocurre en el trabajo real. Las tareas del benchmark, disponibles públicamente en Hugging Face, incluyen casos complejos, como evaluar si la exportación puntual de logs con datos personales a un proveedor en EE. UU. es compatible con el artículo 49 del RGPD, algo que exige interpretar tanto la normativa europea de privacidad como las políticas internas de la empresa.
Apex-Agents se diferencia de otros tests como el GDPVal de OpenAI en que no mide cultura general profesional, sino la capacidad de llevar a cabo trabajos prolongados en pocos sectores muy especializados y de alto valor económico. Por ello, sus autores consideran que se acerca más a la pregunta clave: hasta qué punto estos empleos pueden automatizarse.
Aunque el rendimiento actual es bajo, Foody subraya la rapidez del progreso: si hoy la IA se comporta como un becario que solo acierta el 25% de las veces, el año pasado estaba en torno al 5–10%. Si la mejora anual se mantiene, el impacto en las profesiones cualificadas podría acelerarse en poco tiempo, aun cuando, por ahora, la sustitución masiva del trabajo de oficina sigue lejos de concretarse.


