荒谬的是,OpenAI声称在SWE-Bench上得到了74.9%,只是为了证明他们超过了Opus 4.1的74.5%…… 通过在477个问题上运行,而不是完整的500个。 他们的系统卡上也只显示74%。
来源:
是的,我知道他们一直在报告477的分母,但那并不是“SWE-Bench验证”,那是一个完全不同的指标,它是“OpenAI的SWE Bench验证子集”,这个数字是不能进行比较的。
23.22K