Экстремальная неэффективность RL для моделей Frontier 🧵 Переход от обучения моделей Frontier с помощью предсказания следующего токена к обучению с подкреплением (RL) требует от 1,000 до 1,000,000 раз больше вычислительных ресурсов на каждый бит информации, который модель получает для обучения. 1/11