Qwen3.5 fonctionne très bien dans mlx-lm. C'est génial d'avoir un modèle hybride de niveau frontière. Le contexte devient plus long, mais la vitesse d'inférence et l'utilisation de la mémoire changent à peine. Voici le Q4 générant un jeu d'envahisseurs de l'espace sur un M3 Ultra. 4 120 tokens générés à 37,6 tok/s.
Merci à @pcuenq pour la conversion. Et à @JJJYmmm2002, @ActuallyIsaak, et @JohnMai_Dev pour le port.
47