Google DeepMind publicó un extenso documento sobre su enfoque de seguridad para la Inteligencia General Artificial (AGI), que se define como una IA capaz de realizar cualquier tarea que un humano pueda hacer. La AGI es un tema controvertido en el campo de la inteligencia artificial. Algunos críticos piensan que es solo un sueño inalcanzable, mientras que otros, como laboratorios importantes de IA como Anthropic, advierten que está cerca y podría causar daños catastróficos si no se implementan las medidas de seguridad adecuadas.
El documento de 145 páginas, coescrito por Shane Legg, cofundador de DeepMind, predice que la AGI podría llegar para 2030 y que podría resultar en lo que los autores llaman “daños severos”. Aunque no definen concretamente esto, mencionan riesgos existenciales que podrían “destruir permanentemente a la humanidad”. Los autores afirman que anticipan el desarrollo de una AGI excepcional antes de que termine esta década, que sería un sistema con habilidades que igualan al menos el 99% de los adultos capacitados en diversas tareas no físicas, incluyendo el aprendizaje de nuevas habilidades.
El documento contrasta el enfoque de DeepMind sobre la mitigación de riesgos de AGI con los de Anthropic y OpenAI. Según DeepMind, Anthropic pone menos énfasis en el “entrenamiento robusto, monitoreo y seguridad”, mientras que OpenAI es demasiado optimista al “automatizar” una forma de investigación de seguridad de IA conocida como investigación de alineación.
Además, el documento pone en duda la viabilidad de la IA superinteligente, que sería una IA capaz de realizar trabajos mejor que cualquier humano. Los autores de DeepMind no están convencidos de que los sistemas superinteligentes emerjan pronto, a menos que haya “innovaciones arquitectónicas significativas”.
Sin embargo, consideran plausible que los paradigmas actuales permitan una “mejora recursiva de la IA”, donde la IA realiza su propia investigación para crear sistemas más sofisticados. Esto podría ser increíblemente peligroso, advierten los autores. A un alto nivel, el documento propone desarrollar técnicas para bloquear el acceso de actores malintencionados a la AGI hipotética, mejorar la comprensión de las acciones de los sistemas de IA y “fortalecer” los entornos en los que puede actuar la IA. Reconocen que muchas de estas técnicas son incipientes y tienen “problemas de investigación abiertos”, pero advierten sobre los desafíos de seguridad que podrían estar en el horizonte.
Los autores concluyen que “la naturaleza transformadora de la AGI tiene el potencial de ofrecer beneficios increíbles así como daños severos”. Por lo tanto, es crucial que los desarrolladores de IA planifiquen proactivamente para mitigar estos daños.
Sin embargo, algunos expertos no están de acuerdo con las premisas del documento. Heidy Khlaaf, científica principal de IA en el AI Now Institute, cree que el concepto de AGI es demasiado impreciso para ser “evaluado rigurosamente”. Otro investigador, Matthew Guzdial, profesor asistente en la Universidad de Alberta, sostiene que la mejora recursiva de la IA no es realista en este momento.
Sandra Wachter, investigadora en Oxford, argumenta que una preocupación más realista es que la IA se refuerce con “resultados inexactos”. Ella señala que, con la proliferación de salidas de IA generativa en internet, los modelos están aprendiendo de sus propios resultados, que a menudo contienen errores o “alucinaciones”. Esto significa que los chatbots, que se utilizan principalmente para buscar información, pueden alimentar desinformación que las personas tienden a creer porque se presenta de manera convincente.
A pesar de su exhaustividad, el documento de DeepMind parece poco probable que resuelva los debates sobre cuán realista es la AGI y las áreas de seguridad de IA que necesitan atención urgente.


