Qwen3.5 działa całkiem dobrze w mlx-lm. Świetnie, że mamy hybrydowy model na poziomie frontowym. Kontekst staje się dłuższy, ale prędkość wnioskowania i zużycie pamięci prawie się nie zmieniają. Oto Q4 generujący grę Space Invaders na M3 Ultra. Wygenerowano 4 120 tokenów przy 37,6 tok/s.
Dzięki @pcuenq za konwersję. A także @JJJYmmm2002, @ActuallyIsaak i @JohnMai_Dev za port.
54