Qwen3 Next досить швидкий в останній версії MLX LM (спасибі @ivanfioravanti!). На моєму M4 Max 4-біт працює зі швидкістю >70 ток/сек. І майже постійний стан досить приємний. Швидкість і використання пам'яті майже не змінюються після генерації понад 7600 токенів.