Штрафи за складність означають, що оптимальна стратегія для даної гри не може мати необмежену глибину рекурсії, якщо вона не оптимізована для зворотного дзвінка або не приносить експоненціальні винагороди. Кожен рекурсивний поділ додає принаймні один біт складності до розгорнутої в часі моделі стратегії.
Більшість теорій ігор, які я бачив, не борються з наслідками цього. Це інша межа, ніж просто обчислювальні витрати. Вартість обчислень може бути оцінена локально, але складність є глобальною межею. Контекст має значення.
(Якщо ви знаєте теорію ігор, яка розглядає поведінку гравця в часі як модель, точність і складність якої повинні бути збалансовані, будь ласка, дайте мені знати! Я шукав і не знайшов, але це не означає, що я використовував правильні ключові слова...)
Це говорить про те, що оптимальна стратегія для гравця визначається щодо самомоделі гравця. Якщо уявити собі, що ви вибираєте до речі два варіанти за певної умови, то розгорнуте дерево виростає. Але якщо округлити його до нуля, то дерево не отримає нову гілку.
По суті, існує «бюджет рішень». Додавання більш точних рішень тут означає, що вам доведеться приймати менш точні рішення десь в іншому місці. Не менше обчислень, а менше рішень. Або іншими словами, це вартість складності незайнятих опціонів.
Еквівалентом "дешевших обчислень" тут є "кращі фонові апріорні". Скільки рішень ви приймаєте, є розбіжністю між вашою поведінкою, заснованою на стані в цей момент, і вашою поведінкою, якщо це був (ваша модель) середньостатистичний момент досвіду. Корисні звички!
Це наче дзеркало загальновідомого... Це звичайні дії. Звичні минулі дії агента обмежують його майбутні оптимальні дії. Це означає, що в певному сенсі просто звичайні дії якимось чином є надійним попереднім зобов'язанням продовжувати стратегію, що мається на увазі.
Якщо, звичайно, гравець не діє обманом — платить напрочуд високу вартість складності, щоб уявити себе таким, що зазвичай діє по-іншому, щоб зберегти інший фон апріорів, тому що він очікує прибутку, зраджуючи тих, кого обдурили пізніше.
Оптимальні стратегії є надійно оптимальними. Оптимальна стратегія з більш високою очікуваною прибутковістю, яка призводить до розорення, не є оптимальною. Робастність спирається на простоту, яка є відносною з теорією розуму як себе, так і іншого, і колективного «Ми».
Ці правила про оптимальні рішення в умовах невизначеності не є пропозиціями, вони є законами, подібно до баєсових оновлень. Те, що ви знаєте про себе, є причинно-наслідковим зв'язком з вашою оптимальною стратегією, і існує неминуча складність, ціна обману, що прив'язує самомодель до реальності.
4,29K