复杂性惩罚意味着给定游戏的最佳策略不能具有无限递归深度,除非它经过尾调用优化,或者产生指数奖励。每次递归分裂至少会给策略的时间展开模型增加一个复杂性位。
我见过的大多数博弈论并没有处理这个问题的影响。这是一个不同于单纯计算成本的界限。计算的成本可以在本地定价,但复杂性是一个全球性的界限。上下文很重要。
(如果你知道关于博弈论的时间展开行为的模型,考虑到其准确性和复杂性必须平衡,请告诉我!我查过但没有找到,但这并不意味着我使用了正确的关键词……)
这表明,玩家的最佳策略是相对于玩家的自我模型来确定的。如果你将自己建模为在某种条件下在两个选项之间进行选择,那么展开的树会增长。但如果你将其四舍五入为零,那么树就不会获得新的分支。
实际上,这里有一个“决策预算”。在这里增加更多细致的决策意味着你必须在其他地方做出更少细致的决策。不是计算量减少,而是决策数量减少。换句话说,这是未采取选项的复杂性成本。
这里的“更便宜的计算”相当于“更好的背景先验”。你所做的决策数量是你在此时此刻的行为与如果是(你对)平均体验时刻的行为之间的差异。好习惯!
这有点像常识的镜像……这是常见的行为。一个代理的习惯性过去行为限制了其未来的最佳行为。这意味着,从某种意义上说,通常以某种方式行动是一种可信的预先承诺,继续隐含的策略。
当然,除非玩家在采取欺骗行为——支付一个令人惊讶的高复杂性成本,以便将自己塑造成通常表现得不同的方式,以维持不同的背景先验,因为他们期望通过后来背叛那些被欺骗的人来获得利润。
最佳策略是稳健的最佳策略。一个预期回报更高但导致破产的最佳策略并不是最佳的。稳健性依赖于简单性,这与自我、他人和集体“我们”的心智理论相关。
关于不确定性下最佳决策的这些规则不是建议,它们与贝叶斯更新一样是法律。你对自己的了解对你的最佳策略具有因果关系,而将自我模型与现实联系起来的欺骗不可避免地会带来复杂性成本。
4.26K