Qwen3 Next khá nhanh trong MLX LM mới nhất (cảm ơn @ivanfioravanti!). Trên M4 Max của tôi, 4-bit chạy ở >70 toks/giây. Và trạng thái gần như không đổi thì khá tốt. Tốc độ và mức sử dụng bộ nhớ hầu như không thay đổi sau khi tạo ra hơn 7600 token.