Postare interesantă. Biții/FLOP de la RL sunt cu 3-6 OOM mai mici decât preantrenamentul. Deși @tamaybes subliniat că biții din RL pot viza abilitățile specifice pe care doriți să le învățați. În timp ce preantrenamentul doar distribuie acele biți peste învățarea relațiilor ASCII aleatorii și a un milion de alte lucruri irelevante. În plus, pentru orice sarcină dată, există o mulțime de decizii a căror execuție specifică nu contează prea mult și câteva pe care vrei cu adevărat să le prinzi. RL poate concentra semnalul spre a învăța cum să nu încurci stările critice din episod, spre deosebire de corectarea fiecărui token. Imagine utilă dintr-una dintre prelegerile vechi ale lui @svlevine (B este starea critică): Cred că acest lucru înseamnă că RL este mult mai puțin dens de informații decât preantrenamentul. Și sunt de acord cu Toby că câștigul de informații per FLOP de antrenament RL va fi mai mic decât presupun mulți. Lucrez la o postare despre asta cu @EgeErdil2, @MatthewJBar și @tamaybes. Sperăm să putem publica săptămâna viitoare.