Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Posting yang menarik. Bit/FLOP dari RL adalah 3-6 OOM lebih rendah dari pralatihan.
Meskipun @tamaybes menegaskan bahwa bit dari RL dapat menargetkan keterampilan spesifik yang ingin Anda pelajari. Sedangkan prapelatihan hanya mendistribusikan potongan-potongan itu untuk mempelajari hubungan ASCII acak dan sejuta hal lain yang tidak relevan.
Selain itu, untuk tugas apa pun, ada banyak keputusan yang eksekusi spesifiknya tidak terlalu penting, dan beberapa yang benar-benar ingin Anda lakukan. RL dapat memusatkan sinyal untuk mempelajari bagaimana tidak mengacaukan keadaan kritis dalam episode, dibandingkan dengan mendapatkan setiap token yang benar. Gambar yang berguna dari salah satu kuliah lama @svlevine (B adalah keadaan kritis):
Saya pikir ini masih berarti RL jauh lebih padat informasi daripada prapelatihan. Dan saya setuju dengan Toby bahwa perolehan intelijen per FLOP pelatihan RL env akan kurang dari yang diasumsikan banyak orang.
Mengerjakan posting tentang ini dengan @EgeErdil2, @MatthewJBar, dan @tamaybes. Semoga kami bisa menerbitkan minggu depan.


Teratas
Peringkat
Favorit