La precisión lograda por la inteligencia artificial mejor clasificada en el examen más difícil del mundo ha aumentado un 183% en solo dos semanas. El modelo ChatGPT o3-mini ahora alcanza hasta un 13% de precisión, dependiendo de su capacidad. OpenAI Deep Research ha superado a la competencia con un resultado de 26.6% de precisión.
El examen de inteligencia artificial, conocido como “El Último Examen de la Humanidad”, se lanzó hace menos de dos semanas y ya hemos visto un gran aumento en la precisión. ChatGPT o3-mini y OpenAI Deep Research lideran la tabla de clasificación. Este examen, creado por expertos de todo el mundo, contiene algunos de los problemas de razonamiento más difíciles que existen. De hecho, en un artículo anterior, admití que no podía entender una de las preguntas, mucho menos responderla.
En ese momento, el modelo DeepSeek R1 estaba en la cima de la tabla con una puntuación de 9.4% de precisión, evaluado solo en texto. Ahora, el nuevo modelo o3-mini de OpenAI, lanzado esta semana, ha logrado un 10.5% de precisión en su configuración estándar y un 13% en la configuración alta, que es más inteligente pero tarda más en generar respuestas.
Sin embargo, lo más impresionante es el puntaje de 26.6% de OpenAI Deep Research en el examen, lo que representa un aumento del 183% en la precisión en menos de 10 días. Es importante mencionar que Deep Research tiene capacidades de búsqueda, lo que hace que las comparaciones sean un poco desiguales, ya que otros modelos de IA no cuentan con esta función. La capacidad de buscar en la web es útil para un examen como “El Último Examen de la Humanidad”, que incluye preguntas de conocimiento general.
A pesar de esto, la precisión de los modelos que participan en este examen está mejorando constantemente, y nos hace preguntarnos cuánto tiempo más necesitaremos para ver un modelo de IA que se acerque a completar el examen. Realísticamente, no se espera que la IA logre esto pronto, pero no se puede descartar.
Parece que el último modelo de OpenAI está rindiendo muy bien en muchos temas. Mi suposición es que Deep Research es especialmente útil en áreas como medicina, clásicos y derecho.
OpenAI Deep Research es una herramienta increíblemente impresionante. Me ha sorprendido mucho lo que OpenAI mostró al anunciar este agente de IA. Deep Research puede funcionar como tu analista personal, dedicando tiempo a realizar investigaciones intensivas y generar informes y respuestas que de otro modo llevarían horas a los humanos.
Aunque una puntuación de 26.6% en “El Último Examen de la Humanidad” es realmente impresionante, especialmente considerando el progreso en la tabla de clasificación en solo un par de semanas, sigue siendo una puntuación baja en términos absolutos. Nadie podría afirmar haber aprobado un examen con menos del 50% en el mundo real.
“El Último Examen de la Humanidad” es un excelente estándar que será invaluable a medida que los modelos de IA se desarrollen, permitiéndonos medir hasta dónde han llegado. ¿Cuánto tiempo tendremos que esperar para ver una IA superar el 50%? ¿Y cuál modelo será el primero en lograrlo?


