热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
荒谬的是,OpenAI声称在SWE-Bench上得到了74.9%,只是为了证明他们超过了Opus 4.1的74.5%……
通过在477个问题上运行,而不是完整的500个。
他们的系统卡上也只显示74%。

来源:
是的,我知道他们一直在报告477的分母,但那并不是“SWE-Bench验证”,那是一个完全不同的指标,它是“OpenAI的SWE Bench验证子集”,这个数字是不能进行比较的。
23.22K
热门
排行
收藏