Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Interessant innlegg. Bits/FLOP fra RL er 3-6 OOMs lavere enn pretraining.
Selv om @tamaybes gjorde et poeng av at bitene fra RL kan målrette mot de spesifikke ferdighetene du ønsker å lære. Mens forhåndstrening bare fordeler disse bitene over å lære tilfeldige ASCII-relasjoner og en million andre irrelevante ting.
Videre, for en gitt oppgave, er det mange avgjørelser hvis spesifikke utførelse ikke betyr så mye, og et par du virkelig ønsker å spikre. RL kan konsentrere signalet mot å lære hvordan man ikke roter til de kritiske tilstandene i episoden, i motsetning til å få hvert eneste token riktig. Nyttig bilde fra en av @svlevine gamle forelesninger (B er den kritiske tilstanden):
Jeg tror dette fortsatt fører til at RL er langt langt mindre informasjonstett enn forhåndstrening. Og jeg er enig med Toby i at etterretningsgevinst per FLOP av RL env-trening vil være mindre enn mange antar.
Jobber med et innlegg om dette med @EgeErdil2, @MatthewJBar og @tamaybes. Forhåpentligvis kan vi publisere neste uke.


Topp
Rangering
Favoritter