Qwen3 Next は、最新の MLX LM で非常に高速です (@ivanfioravanti のおかげで!私の M4 Max では、4 ビットは >70 toks/秒で実行されます。 そして、ほぼ一定の状態がとても良いです。速度とメモリ使用量は、7600を超えるトークンを生成した後、ほとんど変わりません。