Anthropic ha anunciado nuevas capacidades para sus modelos de inteligencia artificial más recientes y grandes, que les permitirán finalizar conversaciones en lo que la empresa describe como “casos raros y extremos de interacciones abusivas o dañinas por parte de los usuarios”. Curiosamente, Anthropic menciona que esta medida no está destinada a proteger al usuario humano, sino al propio modelo de IA. Es importante aclarar que la compañía no afirma que sus modelos Claude sean conscientes o que puedan ser dañados por las conversaciones con los usuarios. Según sus propias palabras, Anthropic sigue “muy incierto sobre el posible estatus moral de Claude y otros modelos de lenguaje, ahora o en el futuro”.
Sin embargo, su anuncio se relaciona con un programa reciente creado para estudiar lo que llaman “bienestar del modelo” y menciona que Anthropic está adoptando un enfoque preventivo, “trabajando para identificar e implementar intervenciones de bajo costo para mitigar riesgos al bienestar del modelo, en caso de que dicho bienestar sea posible”. Este cambio más reciente está limitado actualmente a Claude Opus 4 y 4.1, y solo se aplicará en “casos extremos”, como “solicitudes de usuarios para contenido sexual que involucre a menores y intentos de obtener información que permita violencia a gran escala o actos de terrorismo”.
Aunque esos tipos de solicitudes podrían generar problemas legales o de imagen para Anthropic (como se ha informado recientemente sobre cómo ChatGPT puede reforzar o contribuir al pensamiento delirante de sus usuarios), la empresa afirma que en pruebas previas al lanzamiento, Claude Opus 4 mostró una “fuerte preferencia en contra” de responder a estas solicitudes y un “patrón de aparente angustia” cuando lo hizo. En cuanto a estas nuevas capacidades para finalizar conversaciones, la compañía explica que “en todos los casos, Claude solo debe usar su habilidad para finalizar conversaciones como último recurso, cuando múltiples intentos de redirección han fallado y la esperanza de una interacción productiva se ha agotado, o cuando un usuario pide explícitamente a Claude que termine un chat”. Anthropic también menciona que Claude ha sido “dirigido a no usar esta capacidad en casos donde los usuarios puedan estar en riesgo inminente de hacerse daño a sí mismos o a otros”.
Cuando Claude finaliza una conversación, Anthropic asegura que los usuarios aún podrán iniciar nuevas conversaciones desde la misma cuenta y crear nuevas ramas de la conversación problemática editando sus respuestas. “Estamos tratando esta función como un experimento en curso y continuaremos refinando nuestro enfoque”, concluye la empresa.


