DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Como o backprop funciona com RL? A virtude do backprop é que ele atualiza CADA parâmetro individual na proporção de quanto ele afeta a perda. Isso só é possível se você souber como a alteração de cada parâmetro afeta a função de perda. Mas é claro que com RL esse não é o caso: o ambiente (e a recompensa que ele produz) é um sistema totalmente separado. Você não tem alguma função diferenciável contínua que lhe diga o quanto cada parâmetro afeta a probabilidade de cair de um penhasco. As soluções são bastante inteligentes! Aqui estão algumas maneiras de criar um proxy diferenciável para recompensa: Métodos de gradiente de política: você não pode diferenciar a recompensa em relação à rede. Mas você pode diferenciar as probabilidades de diferentes ações/tokens sugeridos pela rede. Então, basta fazer a perda = as probabilidades (soma do log negativo) PONDERADAS pela recompensa. A perda é maior quando a recompensa é menor, então o modelo aprende a gerar tokens que levam a uma recompensa maior com maior probabilidade. Q-learning: Novamente, a recompensa não é diferenciável em relação à rede. Mas você sabe o que é? A previsão da rede sobre a recompensa. E você pode atualizá-lo com base em quão errada foi essa previsão. Agora que você pode prever quais ações levarão a qual recompensa, sua política pode ser simplesmente tomar as ações de recompensa mais altas esperadas.

Melhores

Classificação

Favoritos