Escalabilidade linear obtida com várias instâncias do DeepSeek v3.1. 4x Macs = 4x taxa de transferência. 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/seg 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/seg O DeepSeek V3.1 é um modelo de parâmetro 671B - portanto, em sua quantização nativa de 8 bits, ele requer ~ 700 GB de memória para executar o modelo. O EXO coloca metade das camadas em cada dispositivo, combinando sua memória. O EXO usa MLX distribuído com interconexão TB5, otimizado para Apple Silicon. Se precisarmos de uma taxa de transferência mais alta, adicionar mais dois dispositivos nos permitirá atender a mais usuários de uma só vez. @exolabs lida com tudo isso perfeitamente - adicionando mais dispositivos ao cluster para dimensionamento linear conforme necessário. O novo EXO 1.0 será de código aberto em breveTM
87,83K