Qwen3.5 berjalan cukup baik di mlx-lm. Luar biasa bahwa kami memiliki model hibrida tingkat perbatasan. Konteksnya menjadi lebih panjang tetapi kecepatan inferensi dan penggunaan memori hampir tidak berubah. Inilah Q4 yang menghasilkan game penyerbu luar angkasa di M3 Ultra. Menghasilkan 4.120 token pada 37,6 tok/s.
Terima kasih kepada @pcuenq untuk konversi. Dan @JJJYmmm2002, @ActuallyIsaak, dan @JohnMai_Dev untuk pelabuhan.
49