これまで使ったすべての基礎モデルに同じバグがあります。直ったばかりだ。 2015年以降、すべてのディープネットワークは同じ方法で構築されています。各層が計算を行い、その結果を計算に加算し、それを前進に渡します。 簡単です。しかし問題があります。レイヤー100までには、どの単一レイヤーからの信号も他のすべての合計の下に埋もれてしまいます。 新しい層が一つ一つ、どんどん重要性が薄れていく。 誰もこれを直さなかったのは、十分にうまく機能していたからです。 ムーンショットAIがそれを変えました。彼らの新しい手法である「注意残留」は、各層が過去のすべての層を振り返り、今本当に重要な層を選べるようにしています。 ブラインドな合計の代わりに、選択的回収が使われます。 例え話ですが、すべての草稿が自動的に一つの文書に統合されるエッセイを書くことを想像してください。ドラフト50までには、最新の編集は見えなくなります。 AttnResはすべてのドラフトを分けて、必要なドラフトから引き出すことができます。 これで解決できること: 1. より深い層はもはやかき消されなくなります 2. ネットワーク全体でのトレーニングがより安定する 3. モデルは自身の深さをより効率的に利用します 大規模に実現するために、レイヤーをブロックにまとめ、すべてのレイヤーではなくブロックサマリーで対応します。 推論時のオーバーヘッド:2%未満。 その結果: 同じ性能を得るために計算量を25%減らします。48Bパラメータモデルでテスト。サイズを越えて持続します。...