Kompleksitetsstraffer betyr at den optimale strategien for et gitt spill ikke kan ha ubegrenset rekursjonsdybde med mindre den enten er optimalisert for haleanrop eller gir eksponentielle belønninger. Hver rekursiv splitt legger til minst én bit av kompleksitet til en strategis tidsutrullede modell.
Det meste av spillteori jeg har sett tar ikke tak i implikasjonene av dette. Det er en annen grense enn bare beregningskostnader. Kostnaden for beregningen kan prises inn lokalt, men kompleksitet er en global grense. Konteksten betyr noe.
(Hvis du vet om spillteori med tanke på spillerens tidsutrullede oppførsel som en modell hvis nøyaktighet og kompleksitet må balanseres, vennligst gi meg beskjed! Jeg har lett og ikke funnet, men det betyr ikke at jeg brukte de riktige søkeordene...)
Dette sier at den optimale strategien for en spiller bestemmes i forhold til spillerens selvmodell. Hvis du modellerer deg selv som å velge to alternativer under en viss tilstand, vokser det utrullede treet. Men hvis du runder det av til null, får ikke treet en ny gren.
I realiteten er det et "beslutningsbudsjett". Å legge til mer finkornede beslutninger her betyr at du må ta mindre finkornede beslutninger et annet sted. Ikke mindre beregning, men færre beslutninger. Eller sagt på en annen måte, dette er kompleksitetskostnaden for ubenyttede alternativer.
Ekvivalenten til "billigere databehandling" her er "bedre bakgrunnspriorer". Hvor mange avgjørelser du tar er divergensen mellom atferden din basert på tilstanden i dette øyeblikket, kontra atferden din hvis det var (modellen din av) det gjennomsnittlige opplevelsesøyeblikket. Gode vaner!
Dette er på en måte som et speil av allmenn kunnskap ... det er vanlige handlinger. En agents vanemessige tidligere handlinger begrenser sine fremtidige optimale handlinger. Noe som på en måte betyr at bare å handle på en eller annen måte er en troverdig forhåndsforpliktelse til å fortsette den underforståtte strategien.
Med mindre selvfølgelig spilleren opptrer villedende - betaler en overraskende høy kompleksitetskostnad for å modellere seg selv som vanligvis oppfører seg på en annen måte, for å opprettholde en annen bakgrunn, fordi de forventer fortjeneste ved å forråde de som blir lurt senere.
Optimale strategier er robust optimale. En optimal strategi med høyere forventet avkastning som fører til ruin er ikke optimal. Robusthet er avhengig av enkelhet, som er relativ til teorien om sinnet til både selvet, andre og kollektive "vi".
Disse reglene om optimale avgjørelser under usikkerhet er ikke forslag, de er lover på samme måte som Bayesianske oppdateringer er. Det du vet om deg selv er kausalt over din optimale strategi, og det er en uunngåelig kompleksitetskostnad ved bedrag som knytter selvmodellen til virkeligheten.
4,18K