Post interessante. I bits/FLOP da RL sono 3-6 OOM più bassi rispetto al pretraining. Anche se @tamaybes ha sottolineato che i bits da RL possono mirare alle abilità specifiche che vuoi apprendere. Mentre il pretraining distribuisce quei bits su relazioni ASCII casuali e un milione di altre cose irrilevanti. Inoltre, per qualsiasi compito dato, ci sono molte decisioni la cui esecuzione specifica non conta molto, e alcune che vuoi davvero centrare. RL può concentrare il segnale verso l'apprendimento di come non rovinare gli stati critici nell'episodio, a differenza di ottenere ogni singolo token corretto. Immagine utile da una delle vecchie lezioni di @svlevine (B è lo stato critico): Penso che questo porti ancora a RL che è di gran lunga meno denso di informazioni rispetto al pretraining. E concordo con Toby che il guadagno di intelligenza per FLOP di addestramento dell'ambiente RL sarà inferiore a quanto molti assumono. Sto lavorando a un post su questo con @EgeErdil2, @MatthewJBar e @tamaybes. Speriamo di poter pubblicare la prossima settimana.