Kary za złożoność oznaczają, że optymalna strategia dla danej gry nie może mieć nieograniczonej głębokości rekurencji, chyba że jest zoptymalizowana pod kątem wywołań ogonowych lub generuje wykładnicze nagrody. Każde rekurencyjne podział dodaje przynajmniej jeden bit złożoności do modelu strategii rozwiniętej w czasie.
Większość teorii gier, które widziałem, nie zajmuje się implikacjami tego. To inny ograniczenie niż jedynie koszt obliczeniowy. Koszt obliczeń można wycenić lokalnie, ale złożoność to ograniczenie globalne. Kontekst ma znaczenie.
(Jeśli znasz teorię gier, biorąc pod uwagę czasowo rozwinięte zachowanie gracza jako model, którego dokładność i złożoność muszą być zrównoważone, daj mi znać! Szukałem i nie znalazłem, ale to nie znaczy, że użyłem odpowiednich słów kluczowych…)
To mówi, że optymalna strategia dla gracza jest określona w odniesieniu do modelu samego siebie. Jeśli modelujesz siebie jako wybierającego pomiędzy dwiema opcjami w określonym warunku, rozwinięte drzewo rośnie. Ale jeśli zaokrąglisz to do zera, to drzewo nie zyskuje nowej gałęzi.
W rzeczywistości istnieje "budżet decyzji". Dodanie bardziej szczegółowych decyzji tutaj oznacza, że musisz podejmować mniej szczegółowe decyzje gdzie indziej. Nie mniej obliczeń, ale mniej decyzji. Innymi słowy, to jest koszt złożoności niewykorzystanych opcji.
Odpowiednikiem "tańszego obliczenia" tutaj są "lepsze priorytety tła". Ile decyzji podejmujesz, to rozbieżność między twoim zachowaniem opartym na stanie w tej chwili, a twoim zachowaniem, gdyby to był (twój model) przeciętny moment doświadczenia. Dobre nawyki!
To jest trochę jak lustro powszechnej wiedzy… to powszechne działania. Habitualne przeszłe działania agenta ograniczają jego przyszłe optymalne działania. Co oznacza, w pewnym sensie, że zwykle działanie w określony sposób jest wiarygodnym zobowiązaniem do kontynuowania domniemanej strategii.
Oczywiście, chyba że gracz działa w sposób oszukańczy — ponosząc zaskakująco wysoki koszt złożoności, aby modelować się jako działający w inny sposób, w celu utrzymania innych priorytetów tła, ponieważ oczekują zysku z późniejszego zdradzenia tych, którzy zostali oszukani.
Optymalne strategie są solidnie optymalne. Optymalna strategia z wyższym oczekiwanym zwrotem, która prowadzi do ruiny, nie jest optymalna. Solidność opiera się na prostocie, która jest względna w stosunku do teorii umysłu zarówno własnego, jak i innych oraz zbiorowego "my".
Te zasady dotyczące optymalnych decyzji w warunkach niepewności nie są sugestiami, są prawami w taki sam sposób, jak aktualizacje Bayesa. To, co wiesz o sobie, ma wpływ na twoją optymalną strategię, a związane z oszustwem koszty złożoności są nieuniknione, łącząc model siebie z rzeczywistością.
4,31K