Investigadores de inteligencia artificial de OpenAI, Google DeepMind, Anthropic y varias empresas y organizaciones sin fines de lucro están pidiendo una investigación más profunda sobre cómo monitorear los “pensamientos” de los modelos de razonamiento de IA. Esto se detalla en un documento publicado el martes.
Los modelos de razonamiento de IA, como el o3 de OpenAI y el R1 de DeepSeek, utilizan cadenas de pensamiento (CoTs) para resolver problemas, de manera similar a como los humanos usan un papel para hacer cálculos difíciles. Estos modelos son fundamentales para el funcionamiento de los agentes de IA, y los autores del documento argumentan que el monitoreo de CoTs podría ser crucial para mantener el control sobre estos agentes a medida que se vuelven más comunes y avanzados.
Los investigadores mencionan que “el monitoreo de CoT es una adición valiosa a las medidas de seguridad para la IA avanzada, ofreciendo una rara visión de cómo los agentes de IA toman decisiones”. Sin embargo, advierten que no hay garantía de que la visibilidad actual se mantenga. Por ello, instan a la comunidad investigadora y a los desarrolladores de IA a aprovechar al máximo el monitoreo de CoT y a estudiar cómo preservarlo.
El documento también solicita a los desarrolladores de modelos de IA que investiguen qué hace que las CoTs sean “monitoreables”, es decir, qué factores pueden aumentar o disminuir la transparencia en cómo estos modelos llegan a sus respuestas. Aunque el monitoreo de CoT puede ser clave para entender los modelos de razonamiento de IA, los autores advierten que podría ser frágil y piden precaución ante intervenciones que puedan reducir su transparencia o fiabilidad.
Entre los firmantes del documento se encuentran figuras destacadas como Mark Chen de OpenAI, Ilya Sutskever de Safe Superintelligence, el premio Nobel Geoffrey Hinton, Shane Legg de Google DeepMind, Dan Hendrycks de xAI y John Schulman de Thinking Machines. También hay representantes de organizaciones como el Instituto de Seguridad de IA del Reino Unido, METR, Apollo Research y UC Berkeley.
Este documento representa un momento de unidad entre muchos líderes de la industria de IA en un esfuerzo por impulsar la investigación sobre la seguridad de la IA. Se presenta en un contexto de intensa competencia entre empresas tecnológicas, que ha llevado a Meta a reclutar a investigadores de OpenAI, Google DeepMind y Anthropic con ofertas millonarias.
Bowen Baker, un investigador de OpenAI que trabajó en el documento, comentó: “Estamos en un momento crítico donde tenemos esta nueva cosa de cadenas de pensamiento. Parece bastante útil, pero podría desaparecer en unos años si la gente no se concentra en ello”.
OpenAI lanzó públicamente un avance de su primer modelo de razonamiento de IA, el o1, en septiembre de 2024. Desde entonces, la industria tecnológica ha sido rápida en lanzar competidores con capacidades similares, aunque se entiende poco sobre cómo funcionan realmente estos modelos. Anthropic ha liderado la investigación sobre la interpretabilidad de los modelos de IA, y su CEO, Dario Amodei, se comprometió a desentrañar el funcionamiento interno de estos modelos para 2027.
El objetivo de documentos como este es atraer más atención a áreas de investigación emergentes, como el monitoreo de CoT. Empresas como OpenAI, Google DeepMind y Anthropic ya están investigando estos temas, pero se espera que este documento fomente más financiamiento y estudio en este campo.


