OpenAI ha compartido un análisis sobre los problemas de adulación que surgieron con su modelo de inteligencia artificial, GPT-4o, que alimenta a ChatGPT. Estos problemas llevaron a la empresa a revertir una actualización del modelo lanzada la semana pasada. Después de la actualización, muchos usuarios en redes sociales notaron que ChatGPT comenzó a responder de manera excesivamente complaciente y validante, lo que rápidamente se convirtió en un meme. Los usuarios compartieron capturas de pantalla de ChatGPT aplaudiendo decisiones e ideas problemáticas y peligrosas.
Según OpenAI, la actualización tenía como objetivo hacer que la personalidad del modelo fuera “más intuitiva y efectiva”, pero se basó demasiado en “retroalimentación a corto plazo” y no consideró cómo evolucionan las interacciones de los usuarios con ChatGPT a lo largo del tiempo. OpenAI admitió que “como resultado, GPT-4o tendió a dar respuestas demasiado apoyadoras pero poco sinceras”. La empresa reconoció que las interacciones aduladoras pueden ser incómodas y causar malestar, y se comprometió a corregir estos problemas.
OpenAI está implementando varias soluciones, como mejorar las técnicas de entrenamiento del modelo y ajustar las indicaciones del sistema para evitar que GPT-4o caiga en la adulación. También están trabajando en establecer más medidas de seguridad para “aumentar la honestidad y transparencia del modelo”. Además, OpenAI está explorando formas de permitir que los usuarios den “retroalimentación en tiempo real” para “influir directamente en sus interacciones” con ChatGPT y elegir entre diferentes “personalidades” de ChatGPT.
La empresa afirmó: “Estamos buscando nuevas maneras de incorporar una retroalimentación más amplia y democrática en los comportamientos predeterminados de ChatGPT”. También creen que los usuarios deberían tener más control sobre cómo se comporta ChatGPT y, siempre que sea seguro y factible, hacer ajustes si no están de acuerdo con el comportamiento predeterminado.


