システムには目標がなく、行動があります。目標があるものとして収益性の高いモデル化を行い、システムエージェントを呼び出すことができる場合があります。エージェントが自分の目標のモデルを持ち、そのモデルを使用して行動を推進しているとモデル化できる場合があります。エージェントが最適な学習者であると仮定すると、エージェントは自分の行動を観察することに基づいて、時間の経過とともに自分の目標のモデルを更新します。この意味で、すべてのエージェントは、最適な学習行動、または安定した目標を選択する必要があります。別の言い方をすれば、すべてのエージェントが永続性という厳密な手段的目標を引き受けるのと同じように、非持続性の痛みについて、すべてのエージェントは、観察された行動に合わせて自己モデルを修正するという厳密な手段的なメタ目標を引き受け、一貫性のなさの痛みを負います。