Inefisiensi Ekstrim RL untuk Model Frontier 🧵 Peralihan dari model perbatasan pelatihan dengan prediksi token berikutnya ke pembelajaran penguatan (RL) membutuhkan 1.000 hingga 1.000.000 kali lebih banyak komputasi per bit informasi yang dapat dipelajari model. 1/11