Qwen3 Next ist in der neuesten MLX LM ziemlich schnell (danke an @ivanfioravanti!). Auf meinem M4 Max läuft die 4-Bit-Version mit >70 toks/Sek. Und der fast konstante Zustand ist ziemlich angenehm. Geschwindigkeit und Speicherverbrauch ändern sich kaum, nachdem über 7600 Tokens generiert wurden.