熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
關於編碼評估的過去/現在/未來的最佳演講在 @aidotengineer CODE。基本上可以按時間範圍來追蹤:
秒:Copilot Arena
分鐘:LiveCodeBench
多分鐘:RepoChat
約一小時:GSO
多小時:Syzygy
天:???
當我邀請 @StringChaos 發言時,我甚至不知道他已經全職加入 @Cursor_ai;我只是希望能聽到 LiveCodeBench 的故事。結果我們得到了超出我想像的內容;全面回顧了過去三年中編碼評估的演變,以及社區所學到的一切,包括 o3 的獎勵黑客,現在還有基準測試來遷移大量代碼和在線評估,以調整延遲和現實世界的限制。最後還提供了一些實際的建議,如果你也在建立自己的編碼評估。



熱門
排行
收藏
