Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Konyol bahwa OpenAI mengklaim 74,9% di SWE-Bench hanya untuk membuktikan bahwa mereka berada di atas 74,5% Opus 4.1 ...
Dengan menjalankannya pada 477 masalah, bukan 500 penuh.
Kartu sistem mereka hanya mengatakan 74% juga.

Sumber:
Dan ya, saya tahu mereka selalu melaporkan penyebut 477, tetapi itu BUKAN "SWE-Bench diverifikasi", itu metrik yang sama sekali berbeda, itu adalah "subset OpenAI dari SWE Bench Verified" dan angka itu tidak dapat dibandingkan
23,3K
Teratas
Peringkat
Favorit