OpenAI ha implementado un nuevo sistema para supervisar sus últimos modelos de inteligencia artificial, o3 y o4-mini, enfocado en prevenir que estos ofrezcan consejos sobre amenazas biológicas y químicas. Según el informe de seguridad de OpenAI, este sistema busca evitar que los modelos proporcionen instrucciones que podrían ser utilizadas para llevar a cabo ataques dañinos.
Los modelos o3 y o4-mini son considerados una mejora significativa en comparación con los modelos anteriores de OpenAI, lo que también implica nuevos riesgos si caen en manos equivocadas. De acuerdo con las pruebas internas de OpenAI, o3 es especialmente hábil para responder preguntas sobre la creación de ciertos tipos de amenazas biológicas. Por esta razón, y para mitigar otros riesgos, OpenAI desarrolló un sistema de monitoreo que ellos describen como un “monitor de razonamiento enfocado en la seguridad”. Este monitor, entrenado específicamente para seguir las políticas de contenido de OpenAI, se ejecuta sobre o3 y o4-mini, y está diseñado para identificar solicitudes relacionadas con riesgos biológicos y químicos, instruyendo a los modelos a negarse a ofrecer consejos sobre esos temas.
Para establecer un punto de referencia, OpenAI hizo que un equipo de expertos dedicara alrededor de 1,000 horas a señalar conversaciones “inseguras” relacionadas con bioriesgos en o3 y o4-mini. Durante una prueba en la que OpenAI simuló la “lógica de bloqueo” de su monitor de seguridad, los modelos se negaron a responder a solicitudes arriesgadas el 98.7% de las veces. Sin embargo, OpenAI reconoce que su prueba no consideró a las personas que podrían intentar nuevas solicitudes después de ser bloqueadas, por lo que la empresa continuará confiando en parte en la supervisión humana.
OpenAI asegura que o3 y o4-mini no superan su umbral de “alto riesgo” en cuanto a bioriesgos. Sin embargo, en comparación con o1 y GPT-4, las primeras versiones de o3 y o4-mini demostraron ser más útiles para responder preguntas sobre el desarrollo de armas biológicas. La empresa está monitoreando activamente cómo sus modelos podrían facilitar a usuarios malintencionados el desarrollo de amenazas químicas y biológicas, según su recientemente actualizado Marco de Preparación.
OpenAI está aumentando su dependencia de sistemas automatizados para mitigar los riesgos de sus modelos. Por ejemplo, para evitar que el generador de imágenes nativo de GPT-4o cree material de abuso sexual infantil (CSAM), OpenAI utiliza un monitor de razonamiento similar al que implementó para o3 y o4-mini. Sin embargo, varios investigadores han expresado su preocupación de que OpenAI no esté priorizando la seguridad tanto como debería. Uno de los socios de pruebas de la empresa, Metr, mencionó que tuvo relativamente poco tiempo para evaluar o3 en un estándar de comportamiento engañoso. Mientras tanto, OpenAI decidió no publicar un informe de seguridad para su modelo GPT-4.1, que se lanzó a principios de esta semana.


