Linjär skalning uppnås med flera DeepSeek v3.1-instanser. 4x Mac-datorer = 4x genomströmning. 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/sek 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/sek DeepSeek V3.1 är en 671B-parametermodell - så vid sin ursprungliga 8-bitars kvantisering kräver den ~700 GB minne för att köra modellen. EXO placerar hälften av lagren på varje enhet och kombinerar deras minne. EXO använder MLX distribuerad med TB5-sammankoppling, optimerad för Apple Silicon. Om vi behöver högre dataflöde kan vi lägga till ytterligare två enheter så att vi kan betjäna fler användare samtidigt. @exolabs hanterar allt detta sömlöst och lägger till fler enheter i klustret för linjär skalning när vi behöver det. Den nya EXO 1.0 kommer snart att vara öppen källkod