Interessante post. Bits/FLOP van RL zijn 3-6 OOMs lager dan pretraining. Hoewel @tamaybes het punt maakte dat de bits van RL de specifieke vaardigheden kunnen targeten die je wilt leren. Terwijl pretraining die bits gewoon verspreidt over het leren van willekeurige ASCII-relaties en een miljoen andere irrelevante dingen. Bovendien zijn er voor elke gegeven taak veel beslissingen waarvan de specifieke uitvoering niet veel uitmaakt, en een paar die je echt goed wilt doen. RL kan het signaal concentreren op het leren hoe je de kritieke toestanden in de episode niet verknalt, in plaats van elke enkele token correct te krijgen. Nuttige afbeelding uit een van @svlevine's oude lezingen (B is de kritieke toestand): Ik denk dat dit nog steeds uitkomt op RL dat veel minder informatie-dense is dan pretraining. En ik ben het eens met Toby dat de intelligentiewinst per FLOP van RL-omgevingstraining minder zal zijn dan velen aannemen. Ik werk aan een post hierover met @EgeErdil2, @MatthewJBar en @tamaybes. Hopelijk kunnen we volgende week publiceren.