У систем немає цілей, у них є поведінка. Іноді ми можемо вигідно моделювати їх як такі, що мають цілі, а потім викликати системних агентів. Іноді ми можемо вигідно моделювати агентів як таких, що мають модель власних цілей і використовують цю модель для управління своєю поведінкою. Припускаючи, що агент є оптимальним учнем, він з часом оновить свою модель власних цілей на основі спостереження за власною поведінкою. У цьому сенсі перед кожним агентом постає вибір: оптимальна поведінка в навчанні або стабільні цілі. Іншими словами, подібно до того, як кожен агент бере на себе строгу інструментальну мету наполегливості, під страхом непостійності, кожен агент бере на себе строгу інструментальну мета-мету перегляду своєї самомоделі відповідно до спостережуваної поведінки, під страхом непослідовності.