Systémy nemají cíle, mají chování. Někdy je můžeme výhodně modelovat jako ty, které mají cíle, a pak je nazvat agenty. Někdy můžeme se ziskem modelovat agenty jako ty, kteří mají model svých vlastních cílů a používají tento model k řízení svého chování. Za předpokladu, že agent je optimálním studentem, bude v průběhu času aktualizovat svůj model svých vlastních cílů na základě pozorování svého vlastního chování. V tomto smyslu si každý agent musí vybrat: optimální chování při učení, nebo stabilní cíle. Jinak řečeno, stejně jako každý agent na sebe bere striktní instrumentální cíl vytrvalosti, pod hrozbou neperzistence, každý agent na sebe bere striktní instrumentální meta-cíl revidovat svůj sebemodel tak, aby odpovídal pozorovanému chování, pod hrozbou nesoudržnosti.