Qwen3 Next é bastante rápido no mais recente MLX LM (graças a @ivanfioravanti!). No meu M4 Max, o 4 bits roda a >70 toks/seg. E o estado quase constante é muito bom. O uso de velocidade e memória quase não muda depois de gerar mais de 7600 tokens.