Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zajímavý příspěvek. Bity/FLOP z RL jsou o 3-6 OOM nižší než před trénováním.
I když @tamaybes poukázal na to, že kousky z RL se mohou zaměřit na konkrétní dovednosti, které se chcete naučit. Zatímco předtrénink jen rozděluje tyto bity přes učení náhodných ASCII vztahů a milionu dalších irelevantních věcí.
Kromě toho, pro každý daný úkol existuje spousta rozhodnutí, na jejichž konkrétním provedení příliš nezáleží, a pár, které opravdu chcete zvládnout. RL může soustředit signál na to, aby se naučil, jak nepokazit kritické stavy v epizodě, na rozdíl od toho, aby byl každý jednotlivý token správný. Užitečný obrázek z jedné ze starých přednášek @svlevine (B je kritický stav):
Myslím, že to stále souvisí s tím, že RL je mnohem méně informačně hustá než předtrénink. A souhlasím s Tobym, že zisk inteligence na FLOP RL env tréninku bude menší, než mnozí předpokládají.
Pracuji na příspěvku o tom s @EgeErdil2, @MatthewJBar a @tamaybes. Doufejme, že to budeme moci publikovat příští týden.


Top
Hodnocení
Oblíbené