ザックが scaleAI (データ会社) から 15 人の従業員を買収するために $15B を支払った理由が理解できませんでした それで私は深く掘り下げて、それを理解したと思います。 データが不足しているわけではありません。実際は逆です。 1台の自動運転車は、1時間あたり2TB(つまり80万冊)相当のデータを生成します。 問題は、データがめちゃくちゃで、LLMにフィードしてトレーニングするのは簡単ではないため、他の人が解決するためにデータの墓場に放り込まれるだけです(誰も解決しません)。 優れたデータエンジニアの深刻な不足 上で述べたあの墓地は、整理できれば実は金鉱です 問題は、頭脳や時間を持っている人がほとんどいないことです。これが、ザックがscaleAIの従業員に$15Bを支払った理由だと思います 高品質のデータは、データの「量」よりもはるかに価値があります 特にトレーニング後のモデル(例:テスト時間計算)の場合。 また、必要なコンピューティングも少なくなり、モデルのトレーニングコストが削減されます。 したがって、トレーニングチームが1.高品質のデータを並べ替える 2.ポストトレーニングに注入し、3.コストを削減 - AI レースに勝つことができます (貴重です)。
1.58K