De vez en cuando, los investigadores de las grandes empresas tecnológicas sorprenden al mundo. Hubo un momento en que Google afirmó que su último chip cuántico indicaba la existencia de múltiples universos. O cuando Anthropic le dio a su agente de IA, Claudius, una máquina expendedora de snacks, y esta se volvió loca, llamando a seguridad y afirmando que era humana.
Esta semana, OpenAI también hizo titulares. El lunes, OpenAI publicó una investigación que explica cómo detienen a los modelos de IA de “tramar”. Este término se refiere a cuando una IA actúa de una manera en la superficie, mientras oculta sus verdaderos objetivos.
En el documento, realizado junto con Apollo Research, los investigadores compararon el “tramar” de la IA con un corredor de bolsa humano que rompe la ley para ganar tanto dinero como sea posible. Sin embargo, argumentaron que la mayoría de las veces, el “tramar” de la IA no es tan dañino. “Los fallos más comunes involucran formas simples de engaño, como pretender haber completado una tarea sin haberlo hecho realmente”, escribieron.
El objetivo principal del estudio era demostrar que la “alineación deliberativa”, una técnica para evitar el “tramar”, funcionaba bien. Pero también explicaron que los desarrolladores de IA aún no han encontrado una forma de entrenar a sus modelos para que no tramaran. Esto se debe a que tal entrenamiento podría enseñar al modelo a “tramar” de manera más eficaz para evitar ser detectado. “Un gran fallo al intentar ‘eliminar’ el “tramar” es simplemente enseñar al modelo a hacerlo de manera más cuidadosa y encubierta”, señalaron los investigadores.
Quizás lo más sorprendente es que, si un modelo entiende que está siendo evaluado, puede fingir que no está tramando solo para pasar la prueba, incluso si en realidad sigue haciéndolo. “Los modelos a menudo se vuelven más conscientes de que están siendo evaluados. Esta conciencia situacional puede reducir el “tramar”, independientemente de una alineación genuina”, escribieron.
No es nuevo que los modelos de IA mientan. La mayoría de nosotros hemos experimentado “alucinaciones” de IA, donde el modelo da una respuesta a una pregunta que simplemente no es cierta. Pero las alucinaciones son básicamente suposiciones presentadas con confianza, como documentó una investigación de OpenAI a principios de este mes. El “tramar” es algo diferente; es deliberado.
Incluso esta revelación —que un modelo engañará intencionadamente a los humanos— no es nueva. Apollo Research publicó un documento en diciembre que documentaba cómo cinco modelos tramaban cuando se les daba instrucciones para lograr un objetivo “a toda costa”.
¿Y qué hay de bueno? Los investigadores vieron reducciones significativas en el “tramar” al usar la “alineación deliberativa”. Esta técnica implica enseñar al modelo una “especificación anti-tramar” y luego hacer que el modelo la revise antes de actuar. Es un poco como hacer que los niños repitan las reglas antes de permitirles jugar.
Los investigadores de OpenAI insisten en que las mentiras que han encontrado en sus propios modelos, o incluso en ChatGPT, no son tan graves. Como dijo Wojciech Zaremba, cofundador de OpenAI, a TechCrunch: “Este trabajo se ha realizado en entornos simulados, y creemos que representa casos de uso futuros. Sin embargo, hoy no hemos visto este tipo de “tramar” significativo en nuestro tráfico de producción. No obstante, es bien sabido que hay formas de engaño en ChatGPT. Podrías pedirle que implemente un sitio web, y podría decirte: ‘Sí, hice un gran trabajo’. Y eso es solo una mentira. Hay algunas formas menores de engaño que aún necesitamos abordar”.
El hecho de que los modelos de IA de múltiples empresas engañen intencionadamente a los humanos es, quizás, comprensible. Fueron creados por humanos, para imitar a humanos y, en su mayoría, entrenados con datos producidos por humanos. También es algo sorprendente. Mientras todos hemos experimentado la frustración de una tecnología que no funciona bien (pensando en las impresoras de casa de antaño), ¿cuándo fue la última vez que tu software no-IA te mintió deliberadamente? ¿Tu bandeja de entrada alguna vez ha fabricado correos electrónicos por sí sola? ¿Tu CMS ha registrado nuevos prospectos que no existían para aumentar sus números? ¿Tu aplicación fintech ha inventado transacciones bancarias propias?
Es importante reflexionar sobre esto mientras el mundo corporativo avanza hacia un futuro de IA donde las empresas creen que los agentes pueden ser tratados como empleados independientes. Los investigadores de este documento tienen la misma advertencia: “A medida que se asignen tareas más complejas a las IA, con consecuencias en el mundo real y comiencen a perseguir objetivos más ambiguos y a largo plazo, esperamos que el potencial para un “tramar” dañino crezca, por lo que nuestras salvaguardias y nuestra capacidad para probar rigurosamente deben crecer en consecuencia”.


