Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Las penalizaciones de complejidad significan que la estrategia óptima para un juego dado no puede tener una profundidad de recursión ilimitada a menos que esté optimizada para llamadas en cola o produzca recompensas exponenciales. Cada división recursiva añade al menos un bit de complejidad al modelo desenrollado en el tiempo de la estrategia.
La mayoría de la teoría de juegos que he visto no aborda las implicaciones de esto. Es un límite diferente al mero costo computacional. El costo de la computación puede ser valorado localmente, pero la complejidad es un límite global. El contexto importa.
(Si conoces la teoría de juegos considerando el comportamiento desenrollado en el tiempo del jugador como un modelo cuya precisión y complejidad deben ser equilibradas, ¡por favor házmelo saber! He buscado y no he encontrado, pero eso no significa que haya usado las palabras clave correctas...)
Esto dice que la estrategia óptima para un jugador se determina en relación con el modelo de sí mismo del jugador. Si te modelas a ti mismo como eligiendo entre dos opciones bajo una cierta condición, el árbol desenrollado crece. Pero si lo redondeas a cero, entonces el árbol no gana una nueva rama.
En efecto, hay un "presupuesto de decisiones". Agregar decisiones más detalladas aquí significa que tienes que tomar decisiones menos detalladas en otro lugar. No menos computación, sino menos decisiones. O dicho de otra manera, este es el costo de complejidad de las opciones no tomadas.
El equivalente de "cómputo más barato" aquí es "mejores antecedentes de fondo". Cuántas decisiones estás tomando es la divergencia entre tu comportamiento basado en el estado en este momento, frente a tu comportamiento si fuera (tu modelo de) el momento promedio de experiencia. ¡Buenos hábitos!
Esto es algo así como un espejo del conocimiento común... son acciones comunes. Las acciones habituales pasadas de un agente restringen sus acciones óptimas futuras. Lo que significa que, en cierto sentido, simplemente actuar de cierta manera suele ser un compromiso creíble para continuar la estrategia implícita.
A menos que, por supuesto, el jugador esté actuando de manera engañosa — pagando un costo de complejidad sorprendentemente alto para modelarse a sí mismo como si normalmente actuara de otra manera, con el fin de mantener diferentes priors de fondo, porque esperan obtener ganancias al traicionar a aquellos que fueron engañados más tarde.
Las estrategias óptimas son robustamente óptimas. Una estrategia óptima con un mayor retorno esperado que conduce a la ruina no es óptima. La robustez se basa en la simplicidad, que es relativa a la teoría de la mente tanto del yo, del otro, como del colectivo "nosotros".
Estas reglas sobre decisiones óptimas bajo incertidumbre no son sugerencias, son leyes de la misma manera que las actualizaciones bayesianas. Lo que sabes de ti mismo es causal sobre tu estrategia óptima, y hay un costo de complejidad inevitable para el engaño que une el modelo de uno mismo a la realidad.
4.29K
Populares
Ranking
Favoritas