Jak funguje backprop s RL? Předností backprop je, že aktualizuje KAŽDÝ jednotlivý parametr v poměru k tomu, jak moc se kroutí To je možné pouze tehdy, pokud víte, jak změna jednotlivých parametrů ovlivňuje ztrátovou funkci. Ale u RL tomu tak samozřejmě není: prostředí (a odměna, kterou produkuje) je zcela oddělený systém. Nemáte nějakou spojitou diferencovatelnou funkci, která vám řekne, jak moc kroucení každého parametru ovlivňuje pravděpodobnost pádu z útesu. Řešení jsou docela chytrá! Zde je několik způsobů, jak přijít s diferencovatelným zástupcem odměny: Metody gradientu zásad: Nemůžete rozlišovat odměnu s ohledem na síť. Můžete však rozlišovat pravděpodobnosti různých akcí/tokenů navržených sítí. Takže prostě udělejme ztrátu = (součet záporných logů) pravděpodobností VÁŽENÝCH odměnou. Ztráta je vyšší, když je odměna nižší, takže model se učí vydávat tokeny, což vede k vyšší odměně s vyšší pravděpodobností. Q-learning: Opět platí, že odměna není diferencovatelná s ohledem na síť. Ale víte, co to je? Predikce odměny ze strany sítě. A můžete ji aktualizovat na základě toho, jak špatná byla tato předpověď. Nyní, když můžete předvídat, jaké akce povedou k jaké odměně, může být vaší zásadou jednoduše provést akce s nejvyšší očekávanou odměnou.