複雜性懲罰意味著給定遊戲的最佳策略不能有無界的遞歸深度,除非它是尾調優化的,或者產生指數獎勵。每次遞歸分裂至少會為策略的時間展開模型增加一位複雜性。
我所見的大多數博弈論並未處理這一點的含義。這是一個不同於單純計算成本的界限。計算的成本可以在當地定價,但複雜性是一個全球性的界限。上下文是重要的。
(如果你知道有關遊戲理論的研究,考慮到玩家的時間展開行為作為一個模型,其準確性和複雜性必須平衡,請告訴我!我已經查找過但沒有找到,但這並不意味著我使用了正確的關鍵字……)
這表示玩家的最佳策略是相對於玩家的自我模型來決定的。如果你將自己建模為在某種條件下在兩個選項之間選擇,則展開的樹會增長。但如果你將其四捨五入為零,那麼樹就不會獲得新的分支。
實際上,這是一個「決策預算」。在這裡增加更多細緻的決策意味著你必須在其他地方做出較少的細緻決策。不是計算量減少,而是決策數量減少。換句話說,這是未採取選項的複雜性成本。
這裡的“更便宜的計算”相當於“更好的背景先驗”。你所做的決策數量是你當前狀態下的行為與如果是(你對)經驗的平均時刻時的行為之間的差異。好習慣!
這有點像是常識的鏡子……這是常見的行為。一個代理的習慣性過去行為限制了其未來的最佳行為。這意味著,在某種意義上,僅僅是通常以某種方式行動就是對繼續隱含策略的可信預先承諾。
除非當然,玩家是在欺騙行為——支付意外高的複雜性成本,以便將自己塑造成通常以另一種方式行事,以維持不同的背景先驗,因為他們期望通過後來背叛那些被欺騙的人來獲利。
最佳策略是穩健的最佳策略。具有更高預期回報但導致破產的最佳策略並不是最佳的。穩健性依賴於簡單性,這與自我、他人和集體「我們」的心智理論有關。
這些關於不確定性下最佳決策的規則不是建議,它們就像貝葉斯更新一樣是法律。你對自己的了解對你的最佳策略具有因果關係,並且將自我模型與現實聯繫起來的欺騙有一個不可避免的複雜性成本。
4.28K