Qwen3.5 roda muito bem no mlx-lm. É incrível termos um modelo híbrido de nível fronteira. O contexto fica mais longo, mas a velocidade de inferência e o uso da memória mal mudam. Aqui está o Q4 gerando um jogo Space Invaders em um M3 Ultra. Gerou 4.120 tokens a 37,6 tok/s.
Obrigado à @pcuenq pela conversão. E @JJJYmmm2002, @ActuallyIsaak e @JohnMai_Dev para o porto.
44