Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Post interessante. I bits/FLOP da RL sono 3-6 OOM più bassi rispetto al pretraining.
Anche se @tamaybes ha sottolineato che i bits da RL possono mirare alle abilità specifiche che vuoi apprendere. Mentre il pretraining distribuisce quei bits su relazioni ASCII casuali e un milione di altre cose irrilevanti.
Inoltre, per qualsiasi compito dato, ci sono molte decisioni la cui esecuzione specifica non conta molto, e alcune che vuoi davvero centrare. RL può concentrare il segnale verso l'apprendimento di come non rovinare gli stati critici nell'episodio, a differenza di ottenere ogni singolo token corretto. Immagine utile da una delle vecchie lezioni di @svlevine (B è lo stato critico):
Penso che questo porti ancora a RL che è di gran lunga meno denso di informazioni rispetto al pretraining. E concordo con Toby che il guadagno di intelligenza per FLOP di addestramento dell'ambiente RL sarà inferiore a quanto molti assumono.
Sto lavorando a un post su questo con @EgeErdil2, @MatthewJBar e @tamaybes. Speriamo di poter pubblicare la prossima settimana.


Principali
Ranking
Preferiti