Qwen3.5 funciona bastante bien en mlx-lm. Genial que tengamos un modelo híbrido de nivel frontera. El contexto se alarga, pero la velocidad de inferencia y el uso de memoria apenas cambian. Aquí está el Q4 generando una partida de Space Invaders en un M3 Ultra. Generó 4.120 tokens a 37,6 tok/s.
Gracias a @pcuenq por la conversión. Y @JJJYmmm2002, @ActuallyIsaak y @JohnMai_Dev para el puerto.
45