Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Interesujący post. Bits/FLOP z RL są o 3-6 OOMs niższe niż w przypadku wstępnego szkolenia.
Chociaż @tamaybes zwrócił uwagę, że bity z RL mogą celować w konkretne umiejętności, które chcesz nauczyć się. Natomiast wstępne szkolenie po prostu rozkłada te bity na naukę losowych relacji ASCII i miliona innych nieistotnych rzeczy.
Ponadto, w przypadku dowolnego zadania, istnieje wiele decyzji, których konkretna realizacja nie ma dużego znaczenia, oraz kilka, które naprawdę chcesz dopracować. RL może skoncentrować sygnał na nauce, jak nie zepsuć krytycznych stanów w odcinku, w przeciwieństwie do uzyskania poprawności każdego pojedynczego tokena. Przydatny obrazek z jednego z dawnych wykładów @svlevine'a (B to stan krytyczny):
Myślę, że to wciąż prowadzi do wniosku, że RL jest znacznie mniej gęsty informacyjnie niż wstępne szkolenie. I zgadzam się z Tobym, że zysk inteligencji na FLOP w szkoleniu środowiska RL będzie mniejszy niż wielu zakłada.


Najlepsze
Ranking
Ulubione