¿Cómo funciona el backprop con RL? La virtud del backprop es que actualiza CADA parámetro individual en proporción a cuánto afecta la pérdida. Esto solo es posible si sabes cómo cambiar cada parámetro afecta la función de pérdida. Pero, por supuesto, con RL esto no es el caso: el entorno (y la recompensa que produce) es un sistema completamente separado. No tienes una función continua y diferenciable que te diga cuánto afecta cada parámetro a la probabilidad de caer por un acantilado. ¡Las soluciones son bastante ingeniosas! Aquí hay algunas formas de encontrar un proxy diferenciable para la recompensa: Métodos de gradiente de política: No puedes diferenciar la recompensa con respecto a la red. Pero puedes diferenciar las probabilidades de diferentes acciones/tokens sugeridos por la red. Así que simplemente haz que la pérdida = la (suma de logaritmos negativos) de las probabilidades PESADAS por la recompensa. La pérdida es mayor cuando la recompensa es menor, por lo que el modelo aprende a emitir tokens que conducen a una mayor recompensa con mayor probabilidad. Q-learning: Nuevamente, la recompensa no es diferenciable con respecto a la red. Pero, ¿sabes qué sí lo es? La predicción de la recompensa de la red. Y puedes actualizarla en función de cuán errónea fue esa predicción. Ahora que puedes predecir qué acciones llevarán a qué recompensa, tu política puede simplemente ser tomar las acciones de mayor recompensa esperada.