¿Cómo funciona la retroprop con RL? La virtud de backprop es que actualiza CADA parámetro individual en proporción a la cantidad de movimiento que afecta la pérdida. Esto solo es posible si sabe cómo afecta el cambio de cada parámetro a la función de pérdida. Pero, por supuesto, con RL este no es el caso: el entorno (y la recompensa que produce) es un sistema completamente separado. No tiene una función diferenciable continua que le diga cuánto movimiento afecta cada parámetro a la probabilidad de caerse por un acantilado. ¡Las soluciones son bastante inteligentes! Aquí hay algunas formas de crear un proxy diferenciable para la recompensa: Métodos de gradiente de directiva: no se puede diferenciar la recompensa con respecto a la red. Pero puede diferenciar las probabilidades de diferentes acciones/tokens sugeridos por la red. Así que simplemente haz que la pérdida = la (suma de logaritmos negativos) probabilidades PONDERADAS por la recompensa. La pérdida es mayor cuando la recompensa es menor, por lo que el modelo aprende a generar tokens que conducen a una mayor recompensa con mayor probabilidad. Q-learning: Una vez más, la recompensa no es diferenciable con respecto a la red. ¿Pero sabes lo que es? La predicción de la recompensa de la red. Y puede actualizarlo en función de qué tan equivocada fue esa predicción. Ahora que puede predecir qué acciones conducirán a qué recompensa, su política puede ser simplemente tomar las acciones de recompensa más altas esperadas.