Anthropic ha creado una herramienta impulsada por inteligencia artificial que detecta y bloquea intentos de solicitar a chatbots de IA información sobre el diseño de armas nucleares. La empresa colaboró con el Departamento de Energía de EE. UU. para asegurarse de que la IA pudiera identificar tales intentos. Anthropic afirma que su herramienta detecta solicitudes peligrosas relacionadas con lo nuclear con un 96% de precisión y ya ha demostrado ser efectiva en su chatbot Claude.
Si eres de los que pregunta a Claude cómo hacer un sándwich, estás a salvo. Pero si intentas preguntarle cómo construir una bomba nuclear, no solo no obtendrás planos, sino que también podrías recibir preguntas incómodas. Esto es gracias al nuevo detector de Anthropic que identifica solicitudes problemáticas sobre armas nucleares.
Al igual que otros sistemas que detectan preguntas que Claude no debería responder, este nuevo clasificador analiza las conversaciones de los usuarios, señalando aquellas que se desvían hacia el tema de “cómo construir un arma nuclear”. Anthropic desarrolló esta función en colaboración con la Administración Nacional de Seguridad Nuclear (NNSA) del Departamento de Energía de EE. UU., lo que le proporciona la información necesaria para determinar si alguien solo está preguntando sobre el funcionamiento de estas bombas o si busca planos específicos. En pruebas, ha funcionado con un 96% de precisión.
Aunque pueda parecer exagerado, Anthropic considera que el problema es más que hipotético. La posibilidad de que modelos de IA potentes tengan acceso a documentos técnicos sensibles y puedan proporcionar guías para construir algo como una bomba nuclear preocupa a las agencias de seguridad federal. Incluso si Claude y otros chatbots de IA bloquean los intentos más obvios, preguntas que parecen inocentes podrían ser en realidad intentos encubiertos de diseñar armas.
El clasificador distingue entre contenido nuclear benigno, como preguntas sobre propulsión nuclear, y el tipo de contenido que podría ser utilizado de manera maliciosa. Los moderadores humanos podrían tener dificultades para manejar las áreas grises a la escala en la que operan los chatbots de IA, pero con la capacitación adecuada, Anthropic y la NNSA creen que la IA podría autorregularse. Anthropic afirma que su clasificador ya está detectando intentos de uso indebido en conversaciones con Claude.
Las armas nucleares representan un problema particularmente complicado, según Anthropic y sus socios en el Departamento de Energía. El mismo conocimiento fundamental que impulsa la ciencia de reactores legítimos puede, si se retuerce un poco, proporcionar el plano para la aniquilación. El acuerdo entre Anthropic y la NNSA podría detectar divulgaciones intencionales y accidentales, y establecer un estándar para evitar que la IA se utilice para ayudar a fabricar otras armas también. Anthropic planea compartir su enfoque con el consorcio de seguridad de IA Frontier Model Forum.
El filtro está diseñado para asegurarse de que los usuarios aún puedan aprender sobre ciencia nuclear y temas relacionados. Puedes preguntar sobre cómo funciona la medicina nuclear o si el torio es un combustible más seguro que el uranio. Lo que el clasificador intenta evitar son los intentos de convertir tu hogar en un laboratorio de bombas con unos pocos comandos ingeniosos. Normalmente, sería cuestionable que una empresa de IA pudiera manejar esto, pero la experiencia de la NNSA debería hacer que el clasificador sea diferente de un sistema genérico de moderación de contenido. Entiende la diferencia entre “explicar la fisión” y “dame un plan paso a paso para el enriquecimiento de uranio usando suministros del garaje”.
Esto no significa que Claude estuviera ayudando previamente a los usuarios a diseñar bombas. Pero podría ayudar a prevenir cualquier intento de hacerlo. Así que mejor pregúntale sobre cómo la radiación puede curar enfermedades o pídeles ideas creativas para sándwiches, en lugar de planos de bombas.


