Le penalità di complessità significano che la strategia ottimale per un determinato gioco non può avere una profondità di ricorsione illimitata a meno che non sia ottimizzata per la chiamata finale o produca ricompense esponenziali. Ogni divisione ricorsiva aggiunge almeno un bit di complessità al modello temporale non srotolato di una strategia.
La maggior parte della teoria dei giochi che ho visto non affronta le implicazioni di questo. È un vincolo diverso rispetto al semplice costo computazionale. Il costo del calcolo può essere valutato localmente, ma la complessità è un vincolo globale. Il contesto è importante.
(Se conosci la teoria dei giochi considerando il comportamento del giocatore srotolato nel tempo come un modello il cui equilibrio tra accuratezza e complessità deve essere bilanciato, per favore fammi sapere! Ho cercato e non ho trovato, ma questo non significa che abbia usato le parole chiave giuste...)
Questo dice che la strategia ottimale per un giocatore è determinata rispetto al modello di sé del giocatore. Se ti modelli come se scegliessi tra due opzioni sotto una certa condizione, l'albero srotolato cresce. Ma se lo arrotondi a zero, allora l'albero non guadagna un nuovo ramo.
In effetti, c'è un "budget decisionale". Aggiungere decisioni più dettagliate qui significa che devi prendere decisioni meno dettagliate altrove. Non meno calcoli, ma meno decisioni. O, per dirla in un altro modo, questo è il costo di complessità delle opzioni non prese.
L'equivalente di "calcolo più economico" qui è "migliori prior di sfondo". Quante decisioni stai prendendo è la divergenza tra il tuo comportamento basato sullo stato in questo momento, rispetto al tuo comportamento se fosse (il tuo modello di) il momento medio di esperienza. Buone abitudini!
Questo è un po' come uno specchio della conoscenza comune... sono azioni comuni. Le azioni abituali passate di un agente vincolano le sue future azioni ottimali. Il che significa, in un certo senso, che agire solitamente in un certo modo è un impegno credibile a continuare la strategia implicita.
A meno che, ovviamente, il giocatore non stia agendo in modo ingannevole — pagando un costo di complessità sorprendentemente alto per modellarsi come se agisse in un altro modo, al fine di mantenere delle priorità di fondo diverse, perché si aspetta un profitto tradendo successivamente coloro che sono stati ingannati.
Le strategie ottimali sono robustamente ottimali. Una strategia ottimale con un rendimento atteso più elevato che porta alla rovina non è ottimale. La robustezza si basa sulla semplicità, che è relativa alla teoria della mente di sé, degli altri e del "noi" collettivo.
Queste regole riguardanti le decisioni ottimali in condizioni di incertezza non sono suggerimenti, sono leggi nello stesso modo in cui gli aggiornamenti bayesiani lo sono. Ciò che sai di te stesso è causale rispetto alla tua strategia ottimale, e c'è un costo di complessità inevitabile per la deception che lega il modello di sé alla realtà.
4,28K