Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Cómo funciona la retroprop con RL?
La virtud de backprop es que actualiza CADA parámetro individual en proporción a la cantidad de movimiento que afecta la pérdida. Esto solo es posible si sabe cómo afecta el cambio de cada parámetro a la función de pérdida.
Pero, por supuesto, con RL este no es el caso: el entorno (y la recompensa que produce) es un sistema completamente separado. No tiene una función diferenciable continua que le diga cuánto movimiento afecta cada parámetro a la probabilidad de caerse por un acantilado.
¡Las soluciones son bastante inteligentes! Aquí hay algunas formas de crear un proxy diferenciable para la recompensa:
Métodos de gradiente de directiva: no se puede diferenciar la recompensa con respecto a la red. Pero puede diferenciar las probabilidades de diferentes acciones/tokens sugeridos por la red. Así que simplemente haz que la pérdida = la (suma de logaritmos negativos) probabilidades PONDERADAS por la recompensa. La pérdida es mayor cuando la recompensa es menor, por lo que el modelo aprende a generar tokens que conducen a una mayor recompensa con mayor probabilidad.
Q-learning: Una vez más, la recompensa no es diferenciable con respecto a la red. ¿Pero sabes lo que es? La predicción de la recompensa de la red. Y puede actualizarlo en función de qué tan equivocada fue esa predicción. Ahora que puede predecir qué acciones conducirán a qué recompensa, su política puede ser simplemente tomar las acciones de recompensa más altas esperadas.

Populares
Ranking
Favoritas