La startup GPTZero analizó los 4.841 artículos aceptados en la conferencia NeurIPS, uno de los eventos más prestigiosos en inteligencia artificial, y detectó 100 citas falsas confirmadas en 51 trabajos. Estas citas «alucinadas» habrían sido generadas por modelos de lenguaje usados por los propios investigadores para agilizar tareas como la redacción de referencias bibliográficas.
En términos estadísticos, el problema es pequeño: entre decenas de miles de referencias, las 100 citas inventadas representan una fracción mínima y no invalidan, según NeurIPS, el contenido científico principal de los artículos. La propia conferencia subraya que incluso si alrededor del 1,1% de los trabajos incluye alguna referencia incorrecta por culpa de los LLM, eso no significa que los resultados de investigación sean erróneos.
Sin embargo, el hallazgo no es trivial. NeurIPS se define como un foro de publicación académica rigurosa y sus artículos pasan por revisión por pares, donde se pide a los evaluadores que detecten errores y posibles alucinaciones. Además, las citas funcionan como una «moneda» en el mundo científico: sirven para medir la influencia de un investigador. Si la IA empieza a inventarlas, se diluye ese valor y se distorsiona el reconocimiento académico.
GPTZero enmarca este análisis dentro de un problema más amplio: la avalancha de envíos a grandes conferencias de IA que está saturando los procesos de revisión, tal como ya advertía el artículo académico de 2025 «The AI Conference Peer Review Crisis». En ese contexto de presión y volumen, se facilita que detalles como una referencia fabricada por un modelo de lenguaje se cuelen sin ser detectados.
La pregunta de fondo que deja este episodio es incómoda: si incluso los principales expertos mundiales en IA, conscientes de los riesgos y con su reputación en juego, no siempre logran verificar a fondo lo que producen los modelos que utilizan, ¿qué podemos esperar en ámbitos menos regulados y con menos recursos para comprobar la información?


