關於編碼評估的過去/現在/未來的最佳演講在 @aidotengineer CODE。基本上可以按時間範圍來追蹤: 秒:Copilot Arena 分鐘:LiveCodeBench 多分鐘:RepoChat 約一小時:GSO 多小時:Syzygy 天:??? 當我邀請 @StringChaos 發言時,我甚至不知道他已經全職加入 @Cursor_ai;我只是希望能聽到 LiveCodeBench 的故事。結果我們得到了超出我想像的內容;全面回顧了過去三年中編碼評估的演變,以及社區所學到的一切,包括 o3 的獎勵黑客,現在還有基準測試來遷移大量代碼和在線評估,以調整延遲和現實世界的限制。最後還提供了一些實際的建議,如果你也在建立自己的編碼評估。