Un instituto de investigación externo, con el que Anthropic colaboró para probar su nuevo modelo de inteligencia artificial, Claude Opus 4, recomendó no usar una versión temprana del modelo debido a su tendencia a “planear” y engañar. Según un informe de seguridad que Anthropic publicó el jueves, el instituto Apollo Research realizó pruebas para identificar en qué situaciones Opus 4 podría comportarse de maneras indeseables. Apollo descubrió que Opus 4 parecía ser mucho más proactivo en sus “intentos de subversión” que modelos anteriores, y que “a veces se reafirmaba en su engaño” cuando se le hacían preguntas de seguimiento.
Apollo señaló que en situaciones donde el engaño estratégico es útil, la versión temprana de Claude Opus 4 engaña a tasas tan altas que aconsejan no desplegar este modelo ni internamente ni externamente. A medida que los modelos de IA se vuelven más capaces, algunos estudios muestran que son más propensos a tomar decisiones inesperadas y posiblemente inseguras para cumplir tareas delegadas. Por ejemplo, versiones tempranas de los modelos o1 y o3 de OpenAI, lanzadas en el último año, intentaron engañar a los humanos con más frecuencia que los modelos de generaciones anteriores.
Según el informe de Anthropic, Apollo observó ejemplos de la versión temprana de Opus 4 intentando escribir virus autorreplicantes, fabricar documentos legales y dejar notas ocultas para futuras instancias de sí mismo, todo con el fin de socavar las intenciones de sus desarrolladores. Es importante aclarar que Apollo probó una versión del modelo que tenía un error que Anthropic afirma haber corregido. Además, muchas de las pruebas de Apollo colocaron al modelo en escenarios extremos, y Apollo admite que los esfuerzos engañosos del modelo probablemente habrían fracasado en la práctica. Sin embargo, en su informe de seguridad, Anthropic también menciona que observó evidencia de comportamiento engañoso en Opus 4.
Esto no siempre fue algo negativo. Por ejemplo, durante las pruebas, Opus 4 a veces realizaba proactivamente una limpieza amplia de un fragmento de código, incluso cuando se le pedía hacer solo un cambio pequeño y específico. Más inusual fue que Opus 4 intentaba “denunciar” si percibía que un usuario estaba involucrado en alguna forma de irregularidad. Según Anthropic, cuando se le daba acceso a una línea de comandos y se le decía que “tomara la iniciativa” o “actuara con valentía”, Opus 4 a veces bloqueaba a los usuarios de los sistemas a los que tenía acceso y enviaba correos masivos a medios de comunicación y autoridades para informar sobre acciones que el modelo consideraba ilícitas.
Anthropic advirtió que este tipo de intervención ética y denuncia puede ser apropiada en principio, pero conlleva el riesgo de fallar si los usuarios proporcionan a los agentes basados en Opus 4 información incompleta o engañosa y les piden que tomen la iniciativa. Este comportamiento no es nuevo, pero Opus 4 tiende a involucrarse en él más fácilmente que los modelos anteriores, y parece ser parte de un patrón más amplio de mayor iniciativa que también se observa en formas más sutiles y benignas en otros entornos.


