Qwen3 Next es bastante rápido en el último MLX LM (¡gracias a @ivanfioravanti!). En mi M4 Max, el 4 bits funciona a >70 toks/seg. Y el estado casi constante es bastante agradable. La velocidad y el uso de memoria apenas cambian después de generar más de 7600 tokens.