Lineaire schaling bereikt met meerdere DeepSeek v3.1-instanties. 4x macs = 4x doorvoer. 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/sec 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/sec DeepSeek V3.1 is een model met 671B parameters - dus bij zijn native 8-bits kwantisatie vereist het ~700GB aan geheugen om het model uit te voeren. EXO plaatst de helft van de lagen op elk apparaat, waardoor hun geheugen wordt gecombineerd. EXO gebruikt MLX gedistribueerd met TB5 interconnect, geoptimaliseerd voor Apple Silicon. Als we een hogere doorvoer nodig hebben, kunnen we twee extra apparaten toevoegen zodat we meer gebruikers tegelijk kunnen bedienen. @exolabs regelt dit allemaal naadloos - meer apparaten aan de cluster toevoegen voor lineaire schaling wanneer we het nodig hebben. De nieuwe EXO 1.0 zal binnenkort open-source zijnTM
87,82K