系统没有目标,它们只有行为。我们有时可以有利地将它们建模为具有目标,然后称这些系统为代理。我们有时可以有利地将代理建模为拥有自己的目标模型,并利用该模型来驱动其行为。假设一个代理是一个最佳学习者,它会根据观察自己的行为随时间更新其目标模型。从这个意义上说,每个代理都必须选择:最佳学习行为,还是稳定目标。换句话说,就像每个代理都承担着持久性的严格工具性目标,以避免不持久,每个代理也承担着修订其自我模型以匹配观察到的行为的严格工具性元目标,以避免不连贯。