Qwen3.5 在 mlx-lm 上運行得相當好。 很棒的是我們擁有一個前沿級的混合模型。上下文變得更長,但推理速度和內存使用幾乎沒有變化。 這是 Q4 在 M3 Ultra 上生成的太空入侵者遊戲。生成了 4,120 個標記,速度為 37.6 tok/s。
感謝 @pcuenq 的轉換。還有 @JJJYmmm2002、@ActuallyIsaak 和 @JohnMai_Dev 的移植。
40