Osiągnięto liniowe skalowanie za pomocą wielu instancji DeepSeek v3.1. 4x macs = 4x przepustowości. 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/sec 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/sec DeepSeek V3.1 to model z 671 miliardami parametrów - więc przy natywnej kwantyzacji 8-bitowej wymaga ~700GB pamięci do uruchomienia modelu. EXO umieszcza połowę warstw na każdym urządzeniu, łącząc ich pamięć. EXO korzysta z MLX rozproszonego z interkonektorem TB5, zoptymalizowanego pod kątem Apple Silicon. Jeśli potrzebujemy wyższej przepustowości, dodanie dwóch dodatkowych urządzeń pozwala nam obsługiwać więcej użytkowników jednocześnie. @exolabs obsługuje to wszystko bezproblemowo - dodając więcej urządzeń do klastra w celu liniowego skalowania, gdy tego potrzebujemy. Nowy EXO 1.0 będzie wkrótce dostępny jako open-sourceTM
87,8K