关于编码评估的过去/现在/未来的最佳演讲在 @aidotengineer CODE。基本上按时间范围进行跟踪: 秒:Copilot Arena 分钟:LiveCodeBench 多分钟:RepoChat 大约一小时:GSO 多个小时:Syzygy 天:??? 当我邀请 @StringChaos 发言时,我甚至不知道他已经全职加入 @Cursor_ai;我只是希望听到 LiveCodeBench 的故事。结果我们得到了超出我想象的内容;全面回顾了过去三年编码评估的演变以及社区所学到的一切,包括 o3 的奖励黑客,以及现在的基准测试,以迁移大量代码和在线评估,以适应延迟和现实世界的限制。最后给出了一些实际的建议,如果你也在构建自己的编码评估。