Qwen3 Next 在最新的 MLX LM 中相當快(感謝 @ivanfioravanti!)。在我的 M4 Max 上,4-bit 的運行速度超過 70 toks/sec。 而且幾乎恆定的狀態非常不錯。在生成超過 7600 個 token 後,速度和內存使用幾乎沒有變化。