الأنظمة ليس لها أهداف ، ولها سلوكيات. يمكننا أحيانا نمذجتها بشكل مربح على أنها لها أهداف ، ثم استدعاء وكلاء الأنظمة. يمكننا أحيانا نمذجة الوكلاء بشكل مربح على أنهم لديهم نموذج لأهدافهم الخاصة واستخدام هذا النموذج لدفع سلوكهم. بافتراض أن الوكيل هو المتعلم الأمثل ، فإنه سيقوم بتحديث نموذجه لأهدافه الخاصة بمرور الوقت بناء على مراقبة سلوكه الخاص. بهذا المعنى ، يجب على كل وكيل أن يختار: سلوك التعلم الأمثل ، أو الأهداف المستقرة. بعبارة أخرى ، تماما مثل كل وكيل يأخذ هدفا فعالا صارما للمثابرة ، على ألم عدم المثابرة ، يأخذ كل وكيل هدفا فوقيا صارما لمراجعة نموذجه الذاتي لمطابقة السلوك الملحوظ ، على ألم عدم التماسك.