Bài nói chuyện hay nhất về quá khứ/hiện tại/tương lai của việc đánh giá mã tại @aidotengineer CODE. Cơ bản là theo dõi nó theo các chân trời: giây: Copilot Arena phút: LiveCodeBench nhiều phút: RepoChat ~giờ: GSO nhiều giờ: Syzygy ngày: ??? Khi tôi mời @StringChaos nói chuyện, tôi thậm chí không biết rằng anh ấy đã gia nhập @Cursor_ai toàn thời gian; tôi chỉ hy vọng có được câu chuyện về LiveCodeBench. Thay vào đó, chúng tôi đã nhận được nhiều hơn những gì tôi từng mơ ước; một cái nhìn toàn diện về tất cả các cách mà việc đánh giá mã đã phát triển trong 3 năm qua và mọi thứ mà cộng đồng đã học được, bao gồm cả việc hack phần thưởng của o3, và bây giờ là các tiêu chuẩn để di chuyển một lượng mã THỰC SỰ lớn và các đánh giá trực tuyến để điều chỉnh cho độ trễ và các ràng buộc của thế giới thực. Kết thúc với một số khuyến nghị thực sự nếu bạn cũng đang xây dựng các đánh giá mã của riêng mình.