Qwen3 Next 在最新的 MLX LM 中相当快(感谢 @ivanfioravanti!)。在我的 M4 Max 上,4-bit 的运行速度超过 70 toks/sec。 而且几乎恒定的状态非常不错。在生成超过 7600 个 token 后,速度和内存使用几乎没有变化。