Escalado lineal logrado con varias instancias de DeepSeek v3.1. 4x MAC = 4x rendimiento. 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/seg 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/seg DeepSeek V3.1 es un modelo de parámetros 671B, por lo que en su cuantificación nativa de 8 bits, requiere ~ 700 GB de memoria para ejecutar el modelo. EXO coloca la mitad de las capas en cada dispositivo, combinando su memoria. EXO utiliza MLX distribuido con interconexión TB5, optimizado para Apple Silicon. Si necesitamos un mayor rendimiento, agregar dos dispositivos más nos permite atender a más usuarios a la vez. @exolabs maneja todo esto sin problemas, agregando más dispositivos al clúster para el escalado lineal a medida que lo necesitamos. El nuevo EXO 1.0 será de código abierto prontoTM
87.81K