これは長寿のGPQAダイヤモンドベンチマークを使ってAI競争を視覚化する良い方法だと思います。 OpenAIがどれだけ長くこの分野を独占していたか、Metaの台頭(そして崩壊)、xAIの突然の追いつき(そして停滞)、そしてオープンウェイト中国のLLMの登場が見て取れます。
大学院レベルのGoogleプルーフQ&Aテスト(GPQA)は、高度な知識をテストするために設計された一連の難しい選択式問題です。インターネットにアクセスできる非専門家は34%正解、インターネット接続のある博士号は専門分野で65〜70%の正解率です。おそらく飽和状態に近いのでしょう
私はコデックスにこれを作らせるよう命じた。@EpochAIResearchのデータ。
1.41K