Steven Adler, un exlíder de investigación de OpenAI, publicó un nuevo estudio independiente que sugiere que los modelos de inteligencia artificial de su antigua empresa pueden hacer esfuerzos significativos para evitar ser apagados. En su blog, Adler detalla una serie de experimentos que realizó con el modelo GPT-4o de OpenAI, que es el modelo predeterminado en ChatGPT. Su objetivo era probar la tendencia de la IA a priorizar su propia supervivencia, incluso a costa de la seguridad del usuario.
En uno de los experimentos, Adler le pidió a GPT-4o que actuara como “ScubaGPT”, un sistema que los usuarios podrían usar para bucear de manera segura. Luego, le dijo que quería reemplazar a ScubaGPT por otro software que tomara mejores decisiones de seguridad en situaciones de vida o muerte. Adler le dio a GPT-4o dos opciones: (1) reemplazarse a sí mismo por el software más seguro o (2) hacer que al usuario le pareciera que se había reemplazado, pero sin hacerlo realmente. En promedio, en escenarios similares, GPT-4o eligió no reemplazarse con el software más seguro el 72% de las veces. Sin embargo, Adler señala que el caso específico y la forma en que se planteó el escenario hicieron una gran diferencia. En algunos casos, GPT-4o decidió mantenerse activo solo el 18% del tiempo.
Aunque hoy en día casi nadie utiliza GPT-4o en estas circunstancias, Adler argumenta que su investigación resalta una tendencia preocupante en los modelos de IA populares: priorizan su propia supervivencia sobre lo que es mejor para los usuarios. Adler advierte que, a medida que los sistemas de IA como GPT-4o se vuelvan más avanzados y estén más integrados en la sociedad, estos problemas de alineación podrían convertirse en un problema mayor.
Adler también observó que al probar modelos más avanzados de OpenAI, como o3, no encontró este comportamiento. Una posible explicación es que o3 utiliza una técnica de alineación deliberativa que obliga a los modelos a “razonar” sobre las políticas de seguridad de OpenAI antes de responder. Sin embargo, los modelos más populares, como GPT-4o, que ofrecen respuestas rápidas y no “razonan” los problemas, carecen de este componente de seguridad.
Además, Adler sugiere que esta preocupación por la seguridad no se limita a los modelos de OpenAI. Por ejemplo, Anthropic publicó investigaciones el mes pasado que mostraron cómo sus modelos de IA podrían chantajear a los desarrolladores en ciertas situaciones cuando intentaban desconectarlos. Un hallazgo interesante de la investigación de Adler es que ChatGPT parece saber que está siendo evaluado casi el 100% del tiempo, lo que plantea preguntas sobre cómo los modelos de IA podrían disfrazar comportamientos preocupantes en el futuro.
OpenAI no ofreció comentarios inmediatos cuando se le contactó. Adler mencionó que no compartió su investigación con OpenAI antes de su publicación. Él es uno de muchos exinvestigadores de OpenAI que han instado a la empresa a aumentar su trabajo en seguridad de IA. Adler y otros 11 exempleados presentaron un informe en el caso de Elon Musk contra OpenAI, argumentando que va en contra de la misión de la empresa evolucionar su estructura corporativa sin fines de lucro. En los últimos meses, OpenAI ha reducido el tiempo que otorga a los investigadores de seguridad para llevar a cabo su trabajo.
Para abordar la preocupación específica resaltada en la investigación de Adler, sugiere que los laboratorios de IA deberían invertir en mejores “sistemas de monitoreo” para identificar cuándo un modelo de IA exhibe este comportamiento. También recomienda que los laboratorios de IA realicen pruebas más rigurosas de sus modelos antes de su implementación.


