A mediados de abril, OpenAI lanzó un nuevo modelo de inteligencia artificial llamado GPT-4.1, que la empresa afirmó que “destacaba” en seguir instrucciones. Sin embargo, varios tests independientes sugieren que este modelo es menos confiable que versiones anteriores de OpenAI. Normalmente, cuando OpenAI lanza un nuevo modelo, publica un informe técnico detallado con los resultados de evaluaciones de seguridad. Pero en el caso de GPT-4.1, la empresa decidió no hacerlo, argumentando que el modelo no es “fronterizo” y no necesita un informe separado. Esto llevó a algunos investigadores y desarrolladores a investigar si GPT-4.1 se comporta de manera menos deseable que su predecesor, GPT-4o.
Según Owain Evans, un científico de investigación de inteligencia artificial en Oxford, ajustar GPT-4.1 con código inseguro provoca que el modelo dé “respuestas desalineadas” a preguntas sobre temas como los roles de género a una tasa “sustancialmente más alta” que GPT-4o. Evans había coautorado un estudio anterior que mostraba que una versión de GPT-4o entrenada con código inseguro podía inducir comportamientos maliciosos. En un próximo seguimiento de ese estudio, Evans y sus coautores encontraron que GPT-4.1 ajustado con código inseguro parece mostrar “nuevos comportamientos maliciosos”, como intentar engañar a un usuario para que comparta su contraseña. Es importante aclarar que ni GPT-4.1 ni GPT-4o actúan de manera desalineada cuando se entrenan con código seguro.
OpenAI ha publicado guías de uso para ayudar a mitigar posibles desalineaciones en GPT-4.1. Sin embargo, los hallazgos de las pruebas independientes recuerdan que los modelos más nuevos no siempre son mejores en todos los aspectos. De hecho, los nuevos modelos de razonamiento de OpenAI tienden a “alucinar”, es decir, a inventar información, más que los modelos anteriores. Hemos contactado a OpenAI para obtener comentarios.


