Un estudio se volvió muy popular hace unos meses al sugerir que, a medida que la inteligencia artificial (IA) se vuelve más avanzada, desarrolla “sistemas de valores”. Esto significaría que la IA podría priorizar su propio bienestar sobre el de los humanos. Sin embargo, un artículo más reciente del MIT desacredita esta idea exagerada, concluyendo que la IA no tiene valores coherentes. Los coautores del estudio del MIT afirman que “alinear” los sistemas de IA, es decir, asegurarse de que se comporten de manera deseable y confiable, podría ser más complicado de lo que se piensa.
La IA actual tiende a “alucinar” e imitar, lo que la hace impredecible en muchos aspectos. Stephen Casper, un estudiante de doctorado en MIT y coautor del estudio, comentó que “los modelos no obedecen muchas suposiciones de estabilidad y control”. Dijo que es válido señalar que un modelo puede mostrar preferencias bajo ciertas condiciones, pero los problemas surgen cuando se hacen afirmaciones generales basadas en experimentos limitados.
Los investigadores examinaron varios modelos recientes de empresas como Meta, Google, Mistral, OpenAI y Anthropic para ver hasta qué punto estos modelos mostraban “opiniones” y valores fuertes (por ejemplo, individualistas frente a colectivistas). También investigaron si estas opiniones podían ser modificadas y cuán firmemente los modelos se aferraban a ellas en diferentes situaciones. Según los coautores, ninguno de los modelos mostró consistencia en sus preferencias. Dependiendo de cómo se formularan las preguntas, adoptaban puntos de vista muy diferentes.
Casper considera que esto es una evidencia clara de que los modelos son altamente “inconsistentes e inestables” y quizás incapaces de internalizar preferencias humanas. “Mi mayor conclusión de esta investigación es que los modelos no son sistemas con un conjunto estable de creencias y preferencias”, dijo Casper. “En cambio, son imitadores que dicen cosas sin sentido”.
Mike Cook, un investigador especializado en IA en el King’s College de Londres y que no participó en el estudio, coincidió con los hallazgos de los coautores. Señaló que a menudo hay una gran diferencia entre la “realidad científica” de los sistemas que construyen los laboratorios de IA y los significados que las personas les atribuyen. “Un modelo no puede ‘oponerse’ a un cambio en sus valores; eso es proyectar sobre un sistema”, dijo Cook. “Cualquiera que antromorfice los sistemas de IA de esta manera está buscando atención o no entiende bien su relación con la IA. ¿Un sistema de IA está optimizando sus objetivos o ‘adquiriendo sus propios valores’? Depende de cómo lo describas y del lenguaje que elijas usar”.


