Interesujący post. Bits/FLOP z RL są o 3-6 OOMs niższe niż w przypadku wstępnego szkolenia. Chociaż @tamaybes zwrócił uwagę, że bity z RL mogą celować w konkretne umiejętności, które chcesz nauczyć się. Natomiast wstępne szkolenie po prostu rozkłada te bity na naukę losowych relacji ASCII i miliona innych nieistotnych rzeczy. Ponadto, w przypadku dowolnego zadania, istnieje wiele decyzji, których konkretna realizacja nie ma dużego znaczenia, oraz kilka, które naprawdę chcesz dopracować. RL może skoncentrować sygnał na nauce, jak nie zepsuć krytycznych stanów w odcinku, w przeciwieństwie do uzyskania poprawności każdego pojedynczego tokena. Przydatny obrazek z jednego z dawnych wykładów @svlevine'a (B to stan krytyczny): Myślę, że to wciąż prowadzi do wniosku, że RL jest znacznie mniej gęsty informacyjnie niż wstępne szkolenie. I zgadzam się z Tobym, że zysk inteligencji na FLOP w szkoleniu środowiska RL będzie mniejszy niż wielu zakłada.