Desde 2024, el equipo de optimización de rendimiento de Anthropic usa una prueba para casa para evaluar a aspirantes a puestos técnicos. Sin embargo, la mejora constante de sus modelos de IA, especialmente Claude Opus 4 y 4.5, ha obligado a rediseñar el examen: con el mismo tiempo límite, los modelos ya igualan o superan a casi todos los candidatos humanos.
El responsable del equipo, Tristan Hume, explica en un blog que cada nueva versión de Claude hacía menos útil la prueba, porque ya no permitía distinguir entre el mejor talento humano y las respuestas generadas por la IA. Aunque el uso de herramientas de IA está permitido, el riesgo era que el examen midiera más la calidad del modelo usado que la capacidad real del candidato.
Para resolverlo, Anthropic creó un nuevo ejercicio más original y menos centrado en optimizar hardware, diseñado para que resulte difícil incluso para los sistemas actuales. Además, Hume publicó la prueba original e invitó a cualquiera que logre superar a Claude Opus 4.5 a ponerse en contacto con la empresa. El artículo incluye también una fe de errores aclarando que el uso de IA en la prueba siempre ha estado expresamente permitido.
El resto del texto incorpora un bloque claramente promocional sobre la venta de entradas para el evento TechCrunch Disrupt 2026, que no está directamente relacionado con el contenido principal sobre la evaluación técnica en Anthropic.


