一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

荒谬的是，OpenAI声称在SWE-Bench上得到了74.9%，只是为了证明他们超过了Opus 4.1的74.5%…… 通过在477个问题上运行，而不是完整的500个。他们的系统卡上也只显示74%。

来源：

是的，我知道他们一直在报告477的分母，但那并不是“SWE-Bench验证”，那是一个完全不同的指标，它是“OpenAI的SWE Bench验证子集”，这个数字是不能进行比较的。

23.22K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可