Qwen3.5 досить добре працює в mlx-lm. Чудово, що у нас є гібридна модель рівня фронтиру. Контекст стає довшим, але швидкість виведення та використання пам'яті майже не змінюються. Ось Q4, який генерує гру Space Invaders на M3 Ultra. Згенерувано 4 120 токенів зі швидкістю 37,6 ток/с.
Дякую @pcuenq за конверсію. І @JJJYmmm2002, @ActuallyIsaak і @JohnMai_Dev для порту.
47