Escalonamento linear alcançado com várias instâncias do DeepSeek v3.1. 4x macs = 4x throughput. 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/sec 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/sec DeepSeek V3.1 é um modelo de 671B parâmetros - portanto, na sua quantização nativa de 8 bits, requer ~700GB de memória para executar o modelo. A EXO coloca metade das camadas em cada dispositivo, combinando sua memória. A EXO utiliza MLX distribuído com interconexão TB5, otimizado para Apple Silicon. Se precisarmos de maior throughput, adicionar mais dois dispositivos nos permite atender mais usuários ao mesmo tempo. @exolabs cuida de tudo isso de forma transparente - adicionando mais dispositivos ao cluster para escalonamento linear conforme necessário. O novo EXO 1.0 será open-source em breveTM
87,82K