Zajímavý příspěvek. Bity/FLOP z RL jsou o 3-6 OOM nižší než před trénováním. I když @tamaybes poukázal na to, že kousky z RL se mohou zaměřit na konkrétní dovednosti, které se chcete naučit. Zatímco předtrénink jen rozděluje tyto bity přes učení náhodných ASCII vztahů a milionu dalších irelevantních věcí. Kromě toho, pro každý daný úkol existuje spousta rozhodnutí, na jejichž konkrétním provedení příliš nezáleží, a pár, které opravdu chcete zvládnout. RL může soustředit signál na to, aby se naučil, jak nepokazit kritické stavy v epizodě, na rozdíl od toho, aby byl každý jednotlivý token správný. Užitečný obrázek z jedné ze starých přednášek @svlevine (B je kritický stav): Myslím, že to stále souvisí s tím, že RL je mnohem méně informačně hustá než předtrénink. A souhlasím s Tobym, že zisk inteligence na FLOP RL env tréninku bude menší, než mnozí předpokládají. Pracuji na příspěvku o tom s @EgeErdil2, @MatthewJBar a @tamaybes. Doufejme, že to budeme moci publikovat příští týden.