Lineær skalering oppnådd med flere DeepSeek v3.1-forekomster. 4x Mac-er = 4x gjennomstrømning. 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/sek 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/sek DeepSeek V3.1 er en 671B-parametermodell - så ved sin opprinnelige 8-bits kvantisering krever den ~700 GB minne for å kjøre modellen. EXO legger halvparten av lagene på hver enhet, og kombinerer minnet deres. EXO bruker MLX distribuert med TB5-sammenkobling, optimalisert for Apple Silicon. Hvis vi trenger høyere gjennomstrømning, kan vi legge til to enheter til å betjene flere brukere samtidig. @exolabs håndterer alt dette sømløst - og legger til flere enheter i klyngen for lineær skalering etter hvert som vi trenger det. Den nye EXO 1.0 vil snart være åpen kildekodeTM
87,8K