热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
关于编码评估的过去/现在/未来的最佳演讲在 @aidotengineer CODE。基本上按时间范围进行跟踪:
秒:Copilot Arena
分钟:LiveCodeBench
多分钟:RepoChat
大约一小时:GSO
多个小时:Syzygy
天:???
当我邀请 @StringChaos 发言时,我甚至不知道他已经全职加入 @Cursor_ai;我只是希望听到 LiveCodeBench 的故事。结果我们得到了超出我想象的内容;全面回顾了过去三年编码评估的演变以及社区所学到的一切,包括 o3 的奖励黑客,以及现在的基准测试,以迁移大量代码和在线评估,以适应延迟和现实世界的限制。最后给出了一些实际的建议,如果你也在构建自己的编码评估。



热门
排行
收藏
