トレンドトピック
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
複雑さのペナルティは、特定のゲームの最適な戦略が、テールコールが最適化されているか、指数関数的な報酬を生成しない限り、無制限の再帰の深さを持つことができないことを意味します。各再帰的分割により、戦略の時間展開モデルに少なくとも 1 ビットの複雑さが追加されます。
私が見たほとんどのゲーム理論は、この意味に取り組んでいません。これは、単なる計算コストとは異なる境界です。計算のコストはローカルで価格設定できますが、複雑さはグローバルなバウンドです。コンテキストが重要です。
(プレイヤーの時間展開行動を、精度と複雑さのバランスが取れなければならないモデルとして考慮するゲーム理論をご存知の場合は、お知らせください。私は探しましたが見つかりませんでしたが、それは私が正しいキーワードを使用したという意味ではありません...)
これは、プレーヤーにとって最適な戦略がプレーヤーの自己モデルに関連して決定されることを示しています。特定の条件下で 2 つの選択肢を選択するようにモデル化すると、展開された木が成長します。ただし、ゼロに四捨五入すると、ツリーは新しいブランチを獲得しません。
事実上、「決定予算」がある。ここでよりきめ細かな決定を追加するということは、他の場所でよりきめ細かな決定を下さなければならないことを意味します。計算が減るのではなく、意思決定も減ります。別の言い方をすれば、これは未取のオプションの複雑さのコストです。
ここでの「より安価なコンピューティング」に相当するのは、「より良いバックグラウンド事前確率」です。あなたがどれだけの決定を下しているかは、この瞬間の状態に基づくあなたの行動と、それが平均的な経験の瞬間(あなたのモデル)であった場合のあなたの行動との間の乖離です。良い習慣!
これは常識の鏡のようなものです...それは一般的な行動です。エージェントの習慣的な過去の行動は、将来の最適な行動を制約します。つまり、ある意味では、単に通常何らかの方法で行動することは、暗黙の戦略を継続するための信頼できる事前約束であることを意味します。
もちろん、プレイヤーが欺瞞的な行動をとっている場合を除き、後で騙された人を裏切ることで利益を期待するため、異なる背景の事前を維持するために、通常別の方法で行動しているようにモデル化するために、驚くほど高い複雑さのコストを支払います。
最適な戦略は、堅牢に最適です。破滅につながるより高い期待リターンを持つ最適な戦略は最適ではありません。堅牢性は単純さに依存しており、これは自己、他者、および集合的な「私たち」の両方の心の理論に関連しています。
不確実性の下での最適な決定に関するこれらのルールは提案ではなく、ベイズ更新と同じように法則です。あなたが自分自身について知っていることは、あなたの最適な戦略に因果関係があり、自己モデルを現実に結びつける欺瞞には避けられない複雑さのコストがかかります。
4.28K
トップ
ランキング
お気に入り