Sự kém hiệu quả cực đoan của RL đối với các mô hình Frontier 🧵 Việc chuyển từ đào tạo các mô hình frontier bằng cách dự đoán token tiếp theo sang học tăng cường (RL) yêu cầu từ 1.000 đến 1.000.000 lần nhiều tính toán hơn cho mỗi bit thông tin mà mô hình nhận được để học. 1/11