Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Escalonamento linear alcançado com várias instâncias do DeepSeek v3.1. 4x macs = 4x throughput.
2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/sec
4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/sec
DeepSeek V3.1 é um modelo de 671B parâmetros - portanto, na sua quantização nativa de 8 bits, requer ~700GB de memória para executar o modelo. A EXO coloca metade das camadas em cada dispositivo, combinando sua memória. A EXO utiliza MLX distribuído com interconexão TB5, otimizado para Apple Silicon.
Se precisarmos de maior throughput, adicionar mais dois dispositivos nos permite atender mais usuários ao mesmo tempo. @exolabs cuida de tudo isso de forma transparente - adicionando mais dispositivos ao cluster para escalonamento linear conforme necessário.
O novo EXO 1.0 será open-source em breveTM
87,82K
Top
Classificação
Favoritos