Poco después de que Hunter Lightman se uniera a OpenAI como investigador en 2022, vio a sus colegas lanzar ChatGPT, uno de los productos de más rápido crecimiento en la historia. Mientras tanto, Lightman trabajaba en un equipo que enseñaba a los modelos de OpenAI a resolver problemas de matemáticas de secundaria. Hoy, ese equipo, conocido como MathGen, es clave en el esfuerzo de OpenAI por crear modelos de razonamiento en inteligencia artificial, que son la tecnología fundamental detrás de agentes de IA capaces de realizar tareas en una computadora como lo haría un humano.
Lightman explicó que su objetivo era mejorar el razonamiento matemático de los modelos, que en ese momento no eran muy buenos en ello. Aunque los modelos de OpenAI aún no son perfectos y a veces cometen errores, han mejorado significativamente en razonamiento matemático. De hecho, uno de sus modelos ganó una medalla de oro en la Olimpiada Internacional de Matemáticas, una competencia para los estudiantes de secundaria más brillantes del mundo. OpenAI cree que estas capacidades de razonamiento se pueden aplicar a otras materias y, en última instancia, ayudar a desarrollar agentes de propósito general que la empresa siempre ha querido construir.
ChatGPT fue un accidente afortunado, un avance de investigación que se volvió viral, pero los agentes de OpenAI son el resultado de un esfuerzo deliberado y prolongado. Sam Altman, CEO de OpenAI, mencionó en una conferencia de desarrolladores que en el futuro se podrá pedir a la computadora que realice tareas y esta lo hará.
La compañía sorprendió al mundo con el lanzamiento de su primer modelo de razonamiento en IA, o1, en otoño de 2024. Menos de un año después, los 21 investigadores detrás de este avance se convirtieron en los talentos más buscados en Silicon Valley. Mark Zuckerberg incluso reclutó a cinco de ellos para trabajar en una nueva unidad de Meta enfocada en la superinteligencia, ofreciendo paquetes de compensación superiores a 100 millones de dólares.
El desarrollo de los modelos de razonamiento de OpenAI está vinculado a una técnica de entrenamiento de aprendizaje automático conocida como aprendizaje por refuerzo (RL). Esta técnica proporciona retroalimentación a un modelo de IA sobre si sus elecciones fueron correctas en entornos simulados. Aunque el RL se ha utilizado durante décadas, fue en 2018 cuando OpenAI desarrolló su primer modelo de lenguaje grande en la serie GPT, que se destacó en el procesamiento de texto, aunque tenía dificultades con las matemáticas.
En 2023, OpenAI logró un avance al combinar modelos de lenguaje grande, RL y una técnica llamada computación en tiempo de prueba, lo que permitió a los modelos tener más tiempo y poder de procesamiento para resolver problemas. Esto llevó a la introducción de un nuevo enfoque llamado “cadena de pensamiento”, que mejoró el rendimiento de la IA en preguntas matemáticas que no había visto antes.
Aunque estas técnicas no eran nuevas por sí solas, OpenAI las combinó de manera única para crear Strawberry, que condujo al desarrollo de o1. Con los modelos de razonamiento en IA, OpenAI identificó dos nuevas formas de mejorar sus modelos: utilizando más potencia computacional durante el post-entrenamiento y dando más tiempo y recursos a los modelos al responder preguntas.
Poco después del avance de Strawberry, OpenAI formó un equipo de “Agentes” para avanzar en este nuevo paradigma. Aunque inicialmente no diferenciaron entre modelos de razonamiento y agentes, el objetivo era crear sistemas de IA capaces de realizar tareas complejas.
La compañía tuvo que redirigir recursos valiosos para crear o1, y a lo largo de su historia, los investigadores han tenido que negociar con los líderes de la empresa para obtener recursos. Algunos ex-empleados creen que la misión de OpenAI de desarrollar inteligencia general fue clave para lograr avances en modelos de razonamiento en IA.
Desde el lanzamiento de o1, la experiencia de usuario de ChatGPT ha incorporado características más humanas, como “pensar” y “razonar”. Sin embargo, los agentes de IA actuales funcionan mejor en dominios bien definidos, como la programación, mientras que los agentes de propósito general como ChatGPT y otros enfrentan dificultades en tareas más complejas y subjetivas.
Los investigadores de OpenAI están trabajando en cómo entrenar mejor los modelos subyacentes para completar tareas más subjetivas. OpenAI tiene nuevas técnicas de RL que les permiten enseñar habilidades difíciles de verificar a los modelos de IA. Esto fue lo que permitió a la compañía construir el modelo que ganó la medalla de oro en la Olimpiada Internacional de Matemáticas.
A medida que estas técnicas se vuelven más populares, OpenAI espera que sus modelos se vuelvan más capaces, lo que podría reflejarse en su próximo modelo GPT-5. La compañía también busca simplificar el uso de sus productos, desarrollando agentes de IA que comprendan intuitivamente lo que los usuarios desean.
Mientras OpenAI ha liderado la industria de IA en los últimos años, ahora enfrenta una competencia fuerte. La pregunta ya no es solo si OpenAI puede cumplir su visión de un futuro con agentes de IA, sino si puede hacerlo antes que Google, Anthropic, xAI o Meta.


