Qwen3 Next on melko nopea uusimmassa MLX LM:ssä (kiitos @ivanfioravanti!). M4 Maxissani 4-bittinen toimii >70 toks/s. Ja lähes vakiotila on varsin mukava. Nopeus ja muistin käyttö tuskin muuttuvat yli 7600 tokenin tuottamisen jälkeen.