Bạn KHÔNG muốn bỏ lỡ điều này - Tất cả các mẹo và tối ưu hóa được sử dụng để làm cho gpt-oss nhanh như chớp, tất cả đều có trong một bài viết trên blog (có các chỉ số đo lường hiệu suất)! 🔥 Chúng tôi đề cập đến các chi tiết từ việc lượng tử hóa MXFP4 đến, các kernel đã được xây dựng sẵn, Tensor/ Chuyên gia song song, Batching liên tục và nhiều hơn nữa. Thưởng: Chúng tôi thêm các chỉ số đo lường hiệu suất chi tiết (cùng với các script có thể tái tạo)! ⚡