OpenAI ha lanzado recientemente sus nuevos modelos de inteligencia artificial, o3 y o4-mini, que son muy avanzados en muchos aspectos. Sin embargo, estos modelos todavía tienen un problema importante: tienden a “alucinar” o inventar información, incluso más que algunos de los modelos anteriores de OpenAI. Las alucinaciones son uno de los problemas más difíciles de resolver en la inteligencia artificial y afectan incluso a los sistemas más avanzados de hoy en día.
Históricamente, cada nuevo modelo ha mejorado un poco en cuanto a las alucinaciones, al alucinar menos que el anterior. Pero en el caso de o3 y o4-mini, esto no parece ser así. Según las pruebas internas de OpenAI, estos nuevos modelos, que se consideran modelos de razonamiento, alucinan más a menudo que los modelos anteriores, como o1, o1-mini y o3-mini, así como que los modelos tradicionales de OpenAI, como GPT-4o. Lo más preocupante es que OpenAI no sabe exactamente por qué está sucediendo esto. En su informe técnico sobre o3 y o4-mini, la empresa menciona que “se necesita más investigación” para entender por qué las alucinaciones están empeorando a medida que se desarrollan modelos de razonamiento.
Aunque o3 y o4-mini tienen un mejor rendimiento en tareas relacionadas con la programación y las matemáticas, también “hacen más afirmaciones en general”, lo que significa que generan tanto afirmaciones precisas como inexactas. Por ejemplo, OpenAI descubrió que o3 alucinó en respuesta al 33% de las preguntas en PersonQA, una prueba interna para medir la precisión del conocimiento de un modelo sobre personas. Esto es aproximadamente el doble de la tasa de alucinaciones de los modelos anteriores, o1 y o3-mini, que tuvieron tasas del 16% y 14.8%, respectivamente. O4-mini tuvo un rendimiento aún peor en PersonQA, alucinando el 48% de las veces.
Investigaciones de terceros, como las realizadas por Transluce, un laboratorio de investigación en inteligencia artificial sin fines de lucro, también encontraron que o3 tiende a inventar acciones que supuestamente realizó para llegar a sus respuestas. En un ejemplo, Transluce observó que o3 afirmaba haber ejecutado código en un MacBook Pro de 2021 “fuera de ChatGPT” y luego copió los números en su respuesta, aunque o3 no puede hacer eso.
Neil Chowdhury, un investigador de Transluce y ex empleado de OpenAI, sugirió que el tipo de aprendizaje por refuerzo utilizado en los modelos de la serie o podría estar amplificando problemas que normalmente se mitigan con los procesos de entrenamiento estándar. Sarah Schwettmann, cofundadora de Transluce, agregó que la tasa de alucinaciones de o3 podría hacer que sea menos útil de lo que podría ser.
Kian Katanforoosh, profesor adjunto en Stanford y CEO de la startup Workera, mencionó que su equipo ya está probando o3 en sus flujos de trabajo de programación y ha encontrado que es superior a la competencia. Sin embargo, también señaló que o3 tiende a alucinar enlaces rotos, proporcionando enlaces que no funcionan al hacer clic en ellos.
Las alucinaciones pueden ayudar a los modelos a generar ideas interesantes y ser creativos, pero también dificultan su uso en negocios donde la precisión es crucial. Por ejemplo, un bufete de abogados probablemente no estaría satisfecho con un modelo que inserta muchos errores fácticos en los contratos de los clientes.
Una posible solución para mejorar la precisión de los modelos es darles capacidades de búsqueda en la web. El modelo GPT-4o de OpenAI, que tiene búsqueda en la web, logra un 90% de precisión en SimpleQA. Potencialmente, la búsqueda podría mejorar las tasas de alucinación de los modelos de razonamiento, al menos en los casos en que los usuarios estén dispuestos a exponer sus preguntas a un proveedor de búsqueda externo.
Si el aumento en el tamaño de los modelos de razonamiento continúa empeorando las alucinaciones, la búsqueda de una solución se volverá aún más urgente. En el último año, la industria de la inteligencia artificial ha comenzado a centrarse en los modelos de razonamiento, ya que las técnicas para mejorar los modelos tradicionales han mostrado rendimientos decrecientes. El razonamiento mejora el rendimiento del modelo en diversas tareas sin requerir grandes cantidades de computación y datos durante el entrenamiento, pero parece que también conduce a más alucinaciones, lo que presenta un desafío.


