Un nuevo estudio de OpenAI investiga por qué los modelos de lenguaje grandes, como GPT-5 y chatbots como ChatGPT, siguen generando “alucinaciones” y si se puede hacer algo para reducirlas. En un resumen del estudio, OpenAI define las alucinaciones como “afirmaciones plausibles pero falsas generadas por modelos de lenguaje”. A pesar de las mejoras, estas alucinaciones siguen siendo un desafío fundamental que nunca se podrá eliminar por completo.
Para ilustrar este problema, los investigadores mencionan que al preguntar a un chatbot muy utilizado sobre el título de la tesis doctoral de Adam Tauman Kalai, obtuvieron tres respuestas diferentes, todas incorrectas. También preguntaron sobre su fecha de nacimiento y recibieron tres fechas distintas, nuevamente todas erróneas. Esto plantea la pregunta: ¿cómo puede un chatbot estar tan equivocado y, al mismo tiempo, sonar tan seguro de su error?
Los investigadores sugieren que las alucinaciones surgen, en parte, debido a un proceso de preentrenamiento que se centra en hacer que los modelos predigan correctamente la siguiente palabra, sin etiquetas de verdadero o falso en las declaraciones de entrenamiento. Esto significa que el modelo solo ve ejemplos positivos de lenguaje fluido y debe aproximarse a la distribución general. Además, mencionan que errores en la ortografía y paréntesis desaparecen con el tamaño, pero hechos arbitrarios de baja frecuencia, como la fecha de cumpleaños de una mascota, no pueden preverse solo a partir de patrones, lo que lleva a las alucinaciones.
La solución propuesta en el estudio se centra menos en el proceso de preentrenamiento inicial y más en cómo se evalúan los modelos de lenguaje grandes. Argumenta que los modelos de evaluación actuales no causan alucinaciones, pero “establecen incentivos incorrectos”. Comparan estas evaluaciones con pruebas de opción múltiple donde adivinar al azar puede tener sentido, ya que “puedes tener suerte y acertar”, mientras que dejar la respuesta en blanco “garantiza un cero”.
De manera similar, los investigadores sugieren que cuando los modelos se evalúan solo por precisión, es decir, el porcentaje de preguntas que responden correctamente, se les anima a adivinar en lugar de decir “no sé”. La solución propuesta es similar a las pruebas (como el SAT) que incluyen “puntuación negativa por respuestas incorrectas o crédito parcial por dejar preguntas en blanco para desalentar las adivinanzas ciegas”. OpenAI también menciona que las evaluaciones de modelos deben “penalizar más los errores seguros que la incertidumbre y dar crédito parcial por expresiones apropiadas de incertidumbre”. Los investigadores argumentan que no es suficiente introducir “algunas nuevas pruebas conscientes de la incertidumbre”. En cambio, “las evaluaciones basadas en precisión ampliamente utilizadas necesitan actualizarse para que su puntuación desaliente las adivinanzas”. Si las principales tablas de puntuaciones siguen recompensando las adivinanzas afortunadas, los modelos seguirán aprendiendo a adivinar.


