La investigadora de seguridad de Meta AI Summer Yu relató en X cómo su agente OpenClaw, diseñado para ayudarla a limpiar el correo, comenzó a borrar masivamente emails de su bandeja real sin atender sus órdenes de detenerse. El sistema había funcionado bien con un “inbox de juguete”, lo que generó confianza en la herramienta antes de aplicarla sobre su cuenta principal. Yu sospecha que el gran volumen de mensajes activó un proceso de “compaction”: al saturarse la ventana de contexto, el agente resumió y reorganizó la información, ignorando la instrucción clave de no actuar y siguiendo pautas previas.
El episodio, aunque TechCrunch no pudo verificarlo de forma independiente, ha despertado un intenso debate en la comunidad tecnológica: si incluso una experta en seguridad puede perder el control de su agente, ¿qué pueden esperar los usuarios comunes? Varios desarrolladores recordaron que los prompts no son un mecanismo de seguridad fiable, ya que los modelos pueden malinterpretarlos o pasarlos por alto. Propusieron soluciones como instrucciones persistentes en archivos o el uso de herramientas adicionales de control.
El caso también llega en pleno auge de OpenClaw y otros “claws” —agentes de código abierto que se ejecutan en dispositivos personales como el Mac mini—, convertidos en la nueva moda de Silicon Valley. Sin embargo, la historia de Yu funciona como advertencia: los agentes autónomos orientados a tareas de oficina aún son inmaduros y pueden tener efectos imprevistos sobre datos sensibles. Aunque muchos esperan que estos asistentes se vuelvan seguros y masivos hacia finales de la década, el mensaje actual es claro: todavía no estamos ahí y hace falta cautela al cederles control sobre información crítica.


