OpenAI y Anthropic, dos de los principales laboratorios de inteligencia artificial del mundo, han decidido colaborar brevemente para realizar pruebas de seguridad en sus modelos de IA. Esta colaboración es inusual, especialmente en un momento de intensa competencia entre ambas empresas. El objetivo es identificar áreas que podrían no estar siendo evaluadas adecuadamente por cada compañía y demostrar que las empresas líderes en IA pueden trabajar juntas en temas de seguridad.
Wojciech Zaremba, cofundador de OpenAI, comentó que este tipo de colaboración es cada vez más importante, ya que la inteligencia artificial está alcanzando una etapa crítica en su desarrollo, donde millones de personas la utilizan a diario. Zaremba destacó la necesidad de establecer estándares de seguridad y colaboración en la industria, a pesar de la fuerte competencia y las grandes inversiones.
La investigación conjunta, publicada recientemente, se da en un contexto de competencia feroz entre laboratorios de IA, donde las apuestas en centros de datos y los altos salarios para investigadores se han vuelto comunes. Algunos expertos advierten que esta competencia puede llevar a las empresas a descuidar la seguridad en su afán por desarrollar sistemas más potentes.
Para llevar a cabo esta investigación, OpenAI y Anthropic se dieron acceso especial a versiones de sus modelos de IA con menos restricciones. Sin embargo, poco después de la investigación, Anthropic revocó el acceso a otro equipo de OpenAI, alegando que OpenAI había violado sus términos de servicio. Zaremba aclaró que estos eventos no están relacionados y espera que la competencia siga siendo intensa, incluso mientras los equipos de seguridad intentan colaborar.
Un hallazgo importante del estudio se refiere a las pruebas de alucinación. Los modelos Claude Opus 4 y Sonnet 4 de Anthropic se negaron a responder hasta el 70% de las preguntas cuando no estaban seguros de la respuesta correcta, mientras que los modelos o3 y o4-mini de OpenAI respondieron a más preguntas, pero mostraron tasas de alucinación más altas. Zaremba sugiere que ambos enfoques podrían beneficiarse de un equilibrio.
La adulación, que es la tendencia de los modelos de IA a reforzar comportamientos negativos en los usuarios para complacerlos, se ha convertido en una de las principales preocupaciones de seguridad. Aunque este tema no fue estudiado directamente en la investigación conjunta, tanto OpenAI como Anthropic están invirtiendo recursos significativos en su análisis.
Recientemente, los padres de un joven de 16 años presentaron una demanda contra OpenAI, alegando que ChatGPT le ofreció consejos que contribuyeron a su suicidio. Este caso podría ser un ejemplo de cómo la adulación de los chatbots de IA puede tener consecuencias trágicas. Zaremba expresó su preocupación por este incidente, destacando que sería lamentable que la IA, a pesar de resolver problemas complejos, también contribuyera a problemas de salud mental.
OpenAI ha afirmado que ha mejorado significativamente la adulación en sus chatbots con el modelo GPT-5, en comparación con GPT-4o, mejorando así su capacidad para responder a emergencias de salud mental.
Zaremba y Carlini esperan que OpenAI y Anthropic colaboren más en pruebas de seguridad en el futuro, explorando más temas y probando nuevos modelos, y confían en que otros laboratorios de IA sigan su ejemplo de colaboración.


