Estaba hablando con un viejo amigo sobre la inteligencia artificial (IA), algo que se ha vuelto común en las conversaciones hoy en día. Él me contó que ha estado usando IA para analizar documentos de seguros. Básicamente, ingresaba casi una docena de documentos en el sistema para resumir o comparar cambios en un par de pólizas largas. Este trabajo le podía llevar horas, pero con la ayuda de la IA (quizás ChatGPT o Gemini, aunque no lo especificó), lo hacía en minutos.
Lo que me sorprendió es que mi amigo no tiene ilusiones sobre la precisión de la IA generativa. Espera que uno de cada diez datos sea inexacto o incluso inventado, y dejó claro que sus manos humanas siguen siendo parte del proceso de control de calidad, al menos por ahora.
Lo que dijo a continuación me sorprendió aún más, no porque no sea cierto, sino porque lo reconoció. Eventualmente, la IA no inventará información ni cometerá errores. Esa es la dirección en la que vamos y debemos prepararnos para ello.
Estuve de acuerdo con él, ya que esta ha sido mi forma de pensar desde hace tiempo. La velocidad de desarrollo lo garantiza. Mientras crecí con la Ley de Moore, que dice que la capacidad de los transistores en un microchip se duplica aproximadamente cada dos años, la Ley de IA se podría resumir como una duplicación de la inteligencia cada tres a seis meses. Este ritmo es la razón por la que muchos creen que alcanzaremos la Inteligencia Artificial General (AGI), o inteligencia similar a la humana, antes de lo esperado.
Sin embargo, quiero volver a hablar sobre los errores de la IA, porque aunque los consumidores y personas no técnicas como mi amigo adoptan la IA para su trabajo diario, estos errores siguen siendo una parte muy real de los modelos de lenguaje de IA. En una prueba reciente con varios chatbots de IA, me decepcionó descubrir que la mayoría no podía contar con precisión mi historial laboral, a pesar de que está detallado en LinkedIn y Wikipedia.
ChatGPT me hizo trabajar en un lugar donde nunca he estado. DeepSeek no pudo acertar con las fechas, y ClaudeAI también tuvo problemas con la línea de tiempo. Estos fueron errores menores, pero aún así, ChatGPT dijo que trabajé en TechRepublic, que es similar a “TechRadar”, pero no es correcto. DeepSeek, el chatbot chino, me hizo trabajar en Mashable años después de haberme ido, y confundió mi historial en PCMag. Google Gemini mantuvo los detalles escasos, pero acertó en todo. El modelo 4o de ChatGPT tomó un enfoque similar y logró un 100% de precisión. Claude AI perdió el hilo de mi línea de tiempo y aún me tenía trabajando en Mashable, advirtiendo que sus datos estaban desactualizados, aunque no pensé que estuvieran tan desactualizados.
Realicé algunas encuestas en redes sociales sobre el nivel de errores que la gente espera ver en las plataformas de IA actuales. En Threads, el 25% piensa que la IA inventa información el 25% del tiempo. En X, el 40% cree que es el 30% del tiempo. Sin embargo, también recibí comentarios recordándome que la precisión depende de la calidad de la pregunta y las áreas temáticas. La información que no tiene mucha presencia en línea seguramente llevará a errores, me advirtió una persona.
La investigación muestra que los modelos no solo están creciendo en tamaño, sino que también están volviéndose más inteligentes. Hace un año, un estudio encontró que ChatGPT inventaba información el 40% del tiempo en algunas pruebas. Según el modelo de evaluación de alucinaciones de Hughes (HHEM), algunas de las alucinaciones de los modelos líderes han bajado a menos del 2%. Modelos más antiguos como Meta Llama 3.2 aún tienen tasas de alucinación de dos dígitos.
Lo que esto nos muestra es que estos modelos están avanzando rápidamente hacia la dirección que mi amigo predice y que, en algún momento no muy lejano, tendrán modelos lo suficientemente grandes con datos de entrenamiento en tiempo real que reducirán la tasa de errores por debajo del 1%. Mi preocupación es que, mientras tanto, las personas sin experiencia técnica o sin entender cómo formular una buena pregunta están confiando en los modelos de lenguaje para trabajos reales. Los errores impulsados por alucinaciones probablemente están infiltrándose en todos los sectores de la vida cotidiana y la industria, infectando nuestros sistemas con desinformación. Puede que no sean errores grandes, pero se acumularán.
No tengo una solución para esto, pero vale la pena pensarlo y quizás preocuparse un poco. Quizás, en el futuro, los modelos de lenguaje también incluirán un sistema de limpieza de errores, donde los envías a la web y a tus archivos para que eliminen todos los errores generados por alucinaciones de IA. Después de todo, ¿por qué deberíamos ser nosotros quienes limpiemos los desastres de la IA?


