Scalabilità lineare ottenuta con più istanze di DeepSeek v3.1. 4x macs = 4x throughput. 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/sec 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/sec DeepSeek V3.1 è un modello con 671 miliardi di parametri - quindi alla sua quantizzazione nativa a 8 bit, richiede ~700GB di memoria per eseguire il modello. EXO distribuisce metà degli strati su ciascun dispositivo, combinando la loro memoria. EXO utilizza MLX distribuito con interconnessione TB5, ottimizzato per Apple Silicon. Se abbiamo bisogno di un throughput più elevato, aggiungere altri due dispositivi ci consente di servire più utenti contemporaneamente. @exolabs gestisce tutto questo senza problemi - aggiungendo più dispositivi al cluster per una scalabilità lineare secondo necessità. Il nuovo EXO 1.0 sarà open-source prestoTM
87,8K