Линейное масштабирование достигнуто с помощью нескольких экземпляров DeepSeek v3.1. 4x macs = 4x пропускная способность. 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 ток/сек 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 ток/сек DeepSeek V3.1 — это модель с 671B параметрами, поэтому при ее родной 8-битной квантизации требуется ~700 ГБ памяти для запуска модели. EXO распределяет половину слоев на каждом устройстве, комбинируя их память. EXO использует MLX в распределенном режиме с межсоединением TB5, оптимизированным для Apple Silicon. Если нам нужна более высокая пропускная способность, добавление еще двух устройств позволяет обслуживать больше пользователей одновременно. @exolabs обрабатывает все это без проблем — добавляя больше устройств в кластер для линейного масштабирования по мере необходимости. Новый EXO 1.0 будет скоро с открытым исходным кодомTM
87,81K