Systemen hebben geen doelen, ze hebben gedragingen. We kunnen ze soms winstgevend modelleren als hadden ze doelen, en dan noemen we de systemen agenten. We kunnen agenten soms winstgevend modelleren als hadden ze een model van hun eigen doelen en dat model gebruiken om hun gedrag aan te sturen. Aangenomen dat een agent een optimale leerling is, zal hij zijn model van zijn eigen doelen in de loop van de tijd bijwerken op basis van het observeren van zijn eigen gedrag. In deze zin moet elke agent kiezen: optimaal leer gedrag, of stabiele doelen. Anders gezegd, net zoals elke agent een strikte instrumentele doelstelling van volharding aanneemt, op pijn van niet-volharding, neemt elke agent een strikte instrumentele meta-doelstelling aan van het herzien van zijn zelfmodel om overeen te komen met het waargenomen gedrag, op pijn van incoherentie.