Penalizace za složitost znamená, že optimální strategie pro danou hru nemůže mít neomezenou hloubku rekurze, pokud není optimalizována pro tail-call nebo neprodukuje exponenciální odměny. Každé rekurzivní rozdělení přidává alespoň jeden kousek složitosti do modelu časově rozvinuté strategie.
Většina teorie her, kterou jsem viděl, se nepotýká s důsledky tohoto. Je to jiná hranice než pouhé výpočetní náklady. Náklady na výpočet mohou být stanoveny v místních cenách, ale složitost je globální hranicí. Záleží na kontextu.
(Pokud víte o teorii her s ohledem na časově rozvinuté chování hráče jako na model, jehož přesnost a složitost musí být v rovnováze, dejte mi prosím vědět! Hledal jsem a nenašel, ale to neznamená, že jsem použil správná klíčová slova...)
To říká, že optimální strategie pro hráče je určena ve vztahu k jeho vlastnímu modelu. Pokud se modelujete tak, že si za určitých podmínek vyberete dvě možnosti, rozvinutý strom poroste. Pokud to ale zaokrouhlíte na nulu, pak strom nezíská novou větev.
Ve skutečnosti existuje "rozpočet rozhodnutí". Přidání více podrobných rozhodnutí sem znamená, že musíte dělat méně jemná rozhodnutí někde jinde. Ne méně výpočetních, ale méně rozhodnutí. Nebo jinak řečeno, toto je složitost nákladů na nevyužité možnosti.
Ekvivalentem "levnějších výpočtů" je zde "lepší pozadí priorů". Kolik rozhodnutí činíte, je rozdíl mezi vaším chováním založeným na stavu v tomto okamžiku a vaším chováním, pokud by to byl (váš model) průměrného okamžiku zkušenosti. Dobré návyky!
Je to něco jako zrcadlo obecného vědění... jsou to běžné akce. Agentovy obvyklé minulé akce omezují jeho budoucí optimální akce. Což znamená, že v jistém smyslu je pouze obvyklé jednání nějakým způsobem důvěryhodným předběžným závazkem pokračovat v implicitní strategii.
Pokud ovšem hráč nejedná podvodně – platí překvapivě vysokou cenu za složitost, aby se mohl modelovat jako obvykle jednající jiným způsobem, aby si udržel jiné pozadí, protože očekává zisk z pozdější zrady těch, kteří byli podvedeni.
Optimální strategie jsou robustně optimální. Optimální strategie s vyšším očekávaným výnosem, který vede ke krachu, není optimální. Robustnost se opírá o jednoduchost, která je relativní k teorii mysli jak já, tak druhých a kolektivního "my".
Tato pravidla o optimálním rozhodování v nejistotě nejsou návrhy, jsou to zákony stejným způsobem jako bayesovské aktualizace. To, co o sobě víte, je příčinou vaší optimální strategie a existuje nevyhnutelná cena za složitost podvodu, který spojuje sebemodel s realitou.
4,24K