Como funciona o backprop com RL? A virtude do backprop é que ele atualiza CADA parâmetro individual em proporção a quanto ele afeta a perda. Isso só é possível se você souber como a alteração de cada parâmetro afeta a função de perda. Mas, claro, com RL isso não é o caso: o ambiente (e a recompensa que ele produz) é um sistema completamente separado. Você não tem uma função contínua e diferenciável que lhe diga quanto a alteração de cada parâmetro afeta a probabilidade de cair de um penhasco. As soluções são bastante inteligentes! Aqui estão algumas maneiras de criar um proxy diferenciável para a recompensa: Métodos de gradiente de política: Você não pode diferenciar a recompensa em relação à rede. Mas você pode diferenciar as probabilidades de diferentes ações/tokens sugeridos pela rede. Então, basta fazer a perda = a (soma do log negativo) das probabilidades PESADAS pela recompensa. A perda é maior quando a recompensa é menor, então o modelo aprende a gerar tokens que levam a uma recompensa maior com maior probabilidade. Q-learning: Novamente, a recompensa não é diferenciável em relação à rede. Mas você sabe o que é? A previsão da recompensa pela rede. E você pode atualizá-la com base em quão errada essa previsão estava. Agora que você pode prever quais ações levarão a qual recompensa, sua política pode simplesmente ser tomar as ações de maior recompensa esperada.