Interessant innlegg. Bits/FLOP fra RL er 3-6 OOMs lavere enn pretraining. Selv om @tamaybes gjorde et poeng av at bitene fra RL kan målrette mot de spesifikke ferdighetene du ønsker å lære. Mens forhåndstrening bare fordeler disse bitene over å lære tilfeldige ASCII-relasjoner og en million andre irrelevante ting. Videre, for en gitt oppgave, er det mange avgjørelser hvis spesifikke utførelse ikke betyr så mye, og et par du virkelig ønsker å spikre. RL kan konsentrere signalet mot å lære hvordan man ikke roter til de kritiske tilstandene i episoden, i motsetning til å få hvert eneste token riktig. Nyttig bilde fra en av @svlevine gamle forelesninger (B er den kritiske tilstanden): Jeg tror dette fortsatt fører til at RL er langt langt mindre informasjonstett enn forhåndstrening. Og jeg er enig med Toby i at etterretningsgevinst per FLOP av RL env-trening vil være mindre enn mange antar. Jobber med et innlegg om dette med @EgeErdil2, @MatthewJBar og @tamaybes. Forhåpentligvis kan vi publisere neste uke.