フロンティアモデルにおけるRLの極度の非効率性 🧵 ネクストトークン予測によるフロンティアモデルのトレーニングから強化学習(RL)への切り替えには、モデルが学習する情報のビットあたりの1,000倍から1,000,000倍のコンピューティングが必要です。 1/11