Qwen3.5 يعمل بشكل جيد جدا في mlx-lm. رائع أن لدينا نموذج هجين على مستوى الحدود. السياق يصبح أطول لكن سرعة الاستنتاج واستخدام الذاكرة بالكاد تتغير. إليك Q4 الذي ينشئ لعبة غزاة فضاء على M3 Ultra. أنتجت 4,120 رمزا بمعدل 37.6 توك/ثانية.
شكرا ل @pcuenq على التحويل. و@JJJYmmm2002، @ActuallyIsaak، @JohnMai_Dev للميناء.
‏‎52‏