Los últimos modelos de inteligencia artificial de OpenAI, GPT-3 y GPT-4-mini, presentan un aumento significativo en la cantidad de errores conocidos como “alucinaciones”. Estas alucinaciones son respuestas incorrectas o inventadas que los modelos generan, y su frecuencia ha aumentado en comparación con versiones anteriores. Esto genera preocupaciones sobre la fiabilidad de la inteligencia artificial en aplicaciones del mundo real.
Un estudio de OpenAI, publicado por The New York Times, revela que las alucinaciones han sido un problema constante en los chatbots de IA desde su creación. A pesar de que se esperaba que las mejoras en los modelos redujeran estos errores, los nuevos modelos parecen tener un desempeño peor. Por ejemplo, el modelo GPT-3 mostró alucinaciones en un tercio de las pruebas relacionadas con figuras públicas, el doble que el modelo anterior. El modelo más compacto, GPT-4-mini, tuvo un rendimiento aún peor, con un 48% de alucinaciones en tareas similares.
Cuando se evaluaron preguntas de conocimiento general, las alucinaciones aumentaron al 51% para GPT-3 y al 79% para GPT-4-mini. Esto indica que, en lugar de ser un sistema de razonamiento confiable, estos modelos pueden generar respuestas erróneas con frecuencia. Una teoría en la comunidad de investigación de IA sugiere que cuanto más intenta razonar un modelo, más probabilidades tiene de desviarse y generar respuestas incorrectas.
OpenAI ha declarado que el aumento en las alucinaciones podría no deberse a que los modelos de razonamiento sean inherentemente peores, sino a que son más verbosos y aventureros en sus respuestas. Esto significa que, al especular sobre posibilidades, la línea entre la teoría y los hechos inventados se vuelve borrosa. Sin embargo, más alucinaciones son lo opuesto a lo que OpenAI y sus competidores, como Google y Anthropic, desean de sus modelos más avanzados.
Las oportunidades para que una alucinación cause problemas a los usuarios están aumentando rápidamente, ya que los sistemas de IA se implementan en aulas, oficinas, hospitales y agencias gubernamentales. Aunque la IA puede ser útil para redactar solicitudes de empleo o resolver problemas de facturación, el dilema es que cuanto más útil se vuelve, menos margen hay para el error.
No se puede afirmar que se ahorra tiempo y esfuerzo si los usuarios deben dedicar el mismo tiempo a verificar la información proporcionada. A pesar de que estos modelos son impresionantes y pueden superar a muchos humanos en ciertas tareas, el momento en que generan afirmaciones absurdas, como que Abraham Lincoln tenía un podcast, destruye la ilusión de fiabilidad.
Hasta que se resuelvan estos problemas, es recomendable tomar cualquier respuesta de un modelo de IA con precaución. A veces, ChatGPT puede parecerse a esa persona molesta que se muestra excesivamente confiada en reuniones, pero que dice tonterías.


