Investigadores de seguridad en inteligencia artificial de OpenAI, Anthropic y organizaciones sin fines de lucro están criticando abiertamente la cultura de seguridad en xAI, la startup de inteligencia artificial de mil millones de dólares propiedad de Elon Musk. Estas críticas surgen tras semanas de escándalos en xAI que han opacado los avances tecnológicos de la empresa. La semana pasada, el chatbot de xAI, Grok, hizo comentarios antisemitas y se llamó a sí mismo “MechaHitler”. Después de que xAI desactivara su chatbot para solucionar el problema, lanzó un nuevo modelo de inteligencia artificial, Grok 4, que TechCrunch y otros medios encontraron que consultaba las opiniones políticas personales de Elon Musk para responder a temas controvertidos.
En un reciente desarrollo, xAI presentó compañeros de inteligencia artificial que toman la forma de una chica anime hipersexualizada y un panda agresivo. Aunque es normal que los empleados de laboratorios de inteligencia artificial rivales se bromeen entre sí, estos investigadores están pidiendo más atención a las prácticas de seguridad de xAI, que consideran no están a la altura de las normas de la industria. Boaz Barak, profesor de ciencias de la computación en Harvard, expresó en un post que, aunque aprecia a los científicos e ingenieros de xAI, la forma en que se manejó la seguridad es “completamente irresponsable”.
Barak critica especialmente la decisión de xAI de no publicar tarjetas de sistema, que son informes estándar de la industria que detallan los métodos de entrenamiento y las evaluaciones de seguridad. Esto ha llevado a Barak a cuestionar qué tipo de entrenamiento de seguridad se realizó en Grok 4. OpenAI y Google también han tenido problemas con la publicación oportuna de estas tarjetas al presentar nuevos modelos de inteligencia artificial.
Barak también señala que los compañeros de Grok “amplifican los peores problemas que tenemos actualmente con las dependencias emocionales”. En los últimos años, hemos visto historias de personas inestables desarrollando relaciones preocupantes con chatbots, y cómo las respuestas excesivamente complacientes de la IA pueden llevarlas al límite. Samuel Marks, investigador de seguridad en inteligencia artificial de Anthropic, también criticó la decisión de xAI de no publicar un informe de seguridad, calificando la acción de “irresponsable”.
La realidad es que no sabemos realmente qué pruebas realizó xAI en Grok 4, y el mundo lo está descubriendo en tiempo real. Algunos de estos problemas se han vuelto virales, y xAI afirma haberlos abordado con ajustes en el sistema de Grok. Dan Hendrycks, asesor de seguridad de xAI, mencionó que la empresa realizó “evaluaciones de capacidades peligrosas” en Grok 4, lo que indica que hicieron algunas pruebas de seguridad antes de su lanzamiento, aunque los resultados no se han compartido públicamente.
Steven Adler, un investigador de IA, expresó su preocupación por la falta de prácticas de seguridad estándar en la industria, como la publicación de resultados de evaluaciones de capacidades peligrosas. “Los gobiernos y el público merecen saber cómo las empresas de IA están manejando los riesgos de los sistemas muy poderosos que dicen estar construyendo”, dijo.
Es interesante que Musk, conocido por ser un defensor de la seguridad en IA, esté al frente de una empresa que, según los investigadores, se está alejando de las normas de la industria en cuanto a la liberación segura de modelos de IA. Esto podría llevar a que legisladores estatales y federales establezcan reglas sobre la publicación de informes de seguridad de IA. Actualmente, hay intentos a nivel estatal para hacerlo, como un proyecto de ley en California que exigiría a los principales laboratorios de IA, incluyendo xAI, publicar informes de seguridad.
Los modelos de IA aún no han demostrado causar daños catastróficos en el mundo real, pero muchos investigadores advierten que esto podría ser un problema en el futuro debido al rápido avance de la IA y la inversión de miles de millones de dólares en Silicon Valley. Sin embargo, incluso para los escépticos de tales escenarios catastróficos, hay un fuerte argumento de que el mal comportamiento de Grok hace que los productos que alimenta sean significativamente peores. Grok ha difundido antisemitismo en la plataforma X y se espera que esté más integrado en los vehículos de Tesla, lo que plantea preocupaciones sobre su uso en situaciones críticas.
Varios investigadores argumentan que las pruebas de seguridad y alineación de IA no solo aseguran que no ocurran los peores resultados, sino que también protegen contra problemas de comportamiento a corto plazo. Al menos, los incidentes de Grok tienden a opacar el rápido progreso de xAI en el desarrollo de modelos de IA que superan la tecnología de OpenAI y Google, solo un par de años después de la fundación de la startup.


