Escalado lineal logrado con múltiples instancias de DeepSeek v3.1. 4x macs = 4x rendimiento. 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/sec 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/sec DeepSeek V3.1 es un modelo de 671B parámetros, por lo que en su cuantización nativa de 8 bits, requiere aproximadamente 700GB de memoria para ejecutar el modelo. EXO coloca la mitad de las capas en cada dispositivo, combinando su memoria. EXO utiliza MLX distribuido con interconexión TB5, optimizado para Apple Silicon. Si necesitamos un mayor rendimiento, agregar dos dispositivos más nos permite atender a más usuarios a la vez. @exolabs maneja todo esto sin problemas, agregando más dispositivos al clúster para escalado lineal según lo necesitemos. El nuevo EXO 1.0 será de código abierto prontoTM
87,81K