DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ich denke, das ist eine gute Möglichkeit, das Rennen um die KI mit dem langlebigen GPQA-Diamond-Benchmark zu visualisieren. Man kann sehen, wie lange OpenAI das Feld für sich hatte, den Aufstieg (und den Zusammenbruch) von Meta, das plötzliche Aufholen (und dann die Stagnation) von xAI und den Eintritt der offenen Gewichte chinesischer LLMs.

Der Google-sichere Q&A-Test auf Graduierten-Niveau (GPQA) ist eine Reihe von schwierigen Multiple-Choice-Problemen, die darauf abzielen, fortgeschrittenes Wissen zu testen. Nicht-Experten mit Internetzugang erreichen 34 % richtig, Doktoranden mit Internetzugang erreichen 65-70 % in ihrem Fachgebiet. Wir sind wahrscheinlich nahe an der Sättigung.

Ich habe Codex beauftragt, dies zu erstellen. Daten von @EpochAIResearch.

1,41K

Top

Ranking

Favoriten