Scalare liniară obținută cu mai multe instanțe DeepSeek v3.1. 4x Mac-uri = 4x debit. 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/sec 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/sec DeepSeek V3.1 este un model de parametri 671B - deci la cuantificarea sa nativă pe 8 biți, necesită ~700 GB de memorie pentru a rula modelul. EXO pune jumătate din straturi pe fiecare dispozitiv, combinând memoria lor. EXO folosește MLX distribuit cu interconectare TB5, optimizat pentru Apple Silicon. Dacă avem nevoie de un debit mai mare, adăugarea a încă două dispozitive ne permite să deservim mai mulți utilizatori simultan. @exolabs gestionează toate acestea fără probleme - adăugând mai multe dispozitive la cluster pentru scalare liniară după cum avem nevoie. Noul EXO 1.0 va fi open-source în curândTM
87,83K