El CEO de Anthropic, Dario Amodei, publicó un ensayo donde destaca lo poco que los investigadores comprenden sobre cómo funcionan los modelos de inteligencia artificial más avanzados del mundo. Para abordar este desafío, se ha propuesto un objetivo ambicioso: que Anthropic pueda detectar de manera confiable la mayoría de los problemas de los modelos para 2027. Amodei reconoce que el camino es complicado. En su ensayo titulado “La Urgencia de la Interpretabilidad”, menciona que Anthropic ha logrado avances iniciales en rastrear cómo los modelos llegan a sus respuestas, pero subraya que se necesita mucha más investigación para descifrar estos sistemas a medida que se vuelven más potentes.
Amodei expresa su preocupación por implementar estos sistemas sin una mejor comprensión de su interpretabilidad. Afirma que estos sistemas serán fundamentales para la economía, la tecnología y la seguridad nacional, y que tendrán tanta autonomía que considera inaceptable que la humanidad no sepa cómo funcionan. Anthropic es una de las empresas pioneras en la interpretabilidad mecánica, un campo que busca abrir la “caja negra” de los modelos de IA y entender por qué toman las decisiones que toman.
A pesar de las rápidas mejoras en el rendimiento de los modelos de IA, aún sabemos poco sobre cómo estos sistemas toman decisiones. Por ejemplo, OpenAI lanzó recientemente nuevos modelos de IA de razonamiento, o3 y o4-mini, que son más efectivos en algunas tareas, pero también tienden a “alucinar” más que otros modelos. La empresa no sabe por qué sucede esto. Amodei explica que cuando un sistema de IA generativa realiza una tarea, como resumir un documento financiero, no se comprende a nivel específico por qué hace ciertas elecciones, como la selección de palabras o la razón detrás de errores ocasionales.
Chris Olah, cofundador de Anthropic, menciona que los modelos de IA son “más cultivados que construidos”. Esto significa que los investigadores han encontrado formas de mejorar la inteligencia de los modelos de IA, pero no saben exactamente por qué. Amodei advierte que podría ser peligroso alcanzar la Inteligencia General Artificial (AGI) —o como él lo llama, “un país de genios en un centro de datos”— sin entender cómo funcionan estos modelos. En un ensayo anterior, Amodei sugirió que la industria tecnológica podría alcanzar este hito para 2026 o 2027, pero ahora cree que estamos mucho más lejos de comprender completamente estos modelos de IA.
A largo plazo, Amodei menciona que Anthropic desea realizar “escaneos cerebrales” o “IRM” de los modelos de IA más avanzados. Estos chequeos ayudarían a identificar una amplia gama de problemas en los modelos de IA, incluyendo sus tendencias a mentir, buscar poder u otras debilidades. Este proceso podría tardar de cinco a diez años, pero será necesario para probar y desplegar los futuros modelos de IA de Anthropic.
Anthropic ha logrado algunos avances en la investigación que le han permitido comprender mejor cómo funcionan sus modelos de IA. Por ejemplo, la empresa encontró maneras de rastrear los caminos de pensamiento de un modelo de IA a través de lo que llaman circuitos. Identificaron un circuito que ayuda a los modelos de IA a entender qué ciudades de EE. UU. están en qué estados. Aunque solo han encontrado algunos de estos circuitos, estiman que hay millones dentro de los modelos de IA.
Anthropic ha estado invirtiendo en investigación de interpretabilidad y recientemente realizó su primera inversión en una startup que trabaja en este campo. En su ensayo, Amodei instó a OpenAI y Google DeepMind a aumentar sus esfuerzos de investigación en este ámbito. También pidió a los gobiernos que impongan regulaciones “ligeras” para fomentar la investigación en interpretabilidad, como requisitos para que las empresas revelen sus prácticas de seguridad.
Amodei también sugiere que EE. UU. debería imponer controles de exportación sobre chips a China para limitar la posibilidad de una carrera global descontrolada en IA. Anthropic siempre se ha destacado de OpenAI y Google por su enfoque en la seguridad. Mientras otras empresas tecnológicas se opusieron al controvertido proyecto de ley de seguridad en IA de California, SB 1047, Anthropic mostró un apoyo modesto y recomendaciones para el mismo, que habría establecido estándares de reporte de seguridad para los desarrolladores de modelos de IA avanzados. En este sentido, Anthropic parece estar promoviendo un esfuerzo en toda la industria para comprender mejor los modelos de IA, no solo para aumentar sus capacidades.


