DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Konyol bahwa OpenAI mengklaim 74,9% di SWE-Bench hanya untuk membuktikan bahwa mereka berada di atas 74,5% Opus 4.1 ... Dengan menjalankannya pada 477 masalah, bukan 500 penuh. Kartu sistem mereka hanya mengatakan 74% juga.

Sumber:

Dan ya, saya tahu mereka selalu melaporkan penyebut 477, tetapi itu BUKAN "SWE-Bench diverifikasi", itu metrik yang sama sekali berbeda, itu adalah "subset OpenAI dari SWE Bench Verified" dan angka itu tidak dapat dibandingkan

23,3K

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal