Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Como o backprop funciona com RL?
A virtude do backprop é que ele atualiza CADA parâmetro individual na proporção de quanto ele afeta a perda. Isso só é possível se você souber como a alteração de cada parâmetro afeta a função de perda.
Mas é claro que com RL esse não é o caso: o ambiente (e a recompensa que ele produz) é um sistema totalmente separado. Você não tem alguma função diferenciável contínua que lhe diga o quanto cada parâmetro afeta a probabilidade de cair de um penhasco.
As soluções são bastante inteligentes! Aqui estão algumas maneiras de criar um proxy diferenciável para recompensa:
Métodos de gradiente de política: você não pode diferenciar a recompensa em relação à rede. Mas você pode diferenciar as probabilidades de diferentes ações/tokens sugeridos pela rede. Então, basta fazer a perda = as probabilidades (soma do log negativo) PONDERADAS pela recompensa. A perda é maior quando a recompensa é menor, então o modelo aprende a gerar tokens que levam a uma recompensa maior com maior probabilidade.
Q-learning: Novamente, a recompensa não é diferenciável em relação à rede. Mas você sabe o que é? A previsão da rede sobre a recompensa. E você pode atualizá-lo com base em quão errada foi essa previsão. Agora que você pode prever quais ações levarão a qual recompensa, sua política pode ser simplesmente tomar as ações de recompensa mais altas esperadas.

Melhores
Classificação
Favoritos