興味深い投稿です。RLのビット/FLOPは、事前トレーニングよりも3〜6OOM低くなります。 ただし、@tamaybes RLのビットは、学びたい特定のスキルをターゲットにできると指摘しました。一方、事前トレーニングは、ランダムなASCII関係やその他の100万もの無関係なものを学習するためにそれらのビットを分散するだけです。 さらに、どのタスクにも、具体的な実行があまり重要ではない決定がたくさんあり、本当に成功させたいものがいくつかあります。 RLは、すべてのトークンを正しくするのではなく、エピソードのクリティカルな状態を台無しにしない方法の学習にシグナルを集中させることができます。@svlevineの古い講義の1つからの有用な画像(Bは臨界状態です): これは、RLが事前トレーニングよりもはるかに情報密度がはるかに低いことにまだ関係していると思います。そして、RL環境トレーニングのFLOPあたりの知能向上は、多くの人が想定しているよりも少ないというTobyの意見に同意します。 これに関する投稿を @EgeErdil2、@MatthewJBar、@tamaybes と共同で作成しています。来週出版できることを願っています。