複数の DeepSeek v3.1 インスタンスで実現される線形スケーリング。4 倍の MAC = 4 倍のスループット。 2x M3 Ultra Mac Studios = 1x DeepSeek @ 14 tok/sec 4x M3 Ultra Mac Studios = 2x DeepSeek @ 28 tok/sec DeepSeek V3.1 は 671B パラメータ モデルであるため、ネイティブの 8 ビット量子化では、モデルを実行するために ~700 GB のメモリが必要です。EXOは、各デバイスにレイヤーの半分を配置し、メモリを結合します。EXOは、Apple Silicon用に最適化されたTB5インターコネクトで配布されたMLXを使用します。 より高いスループットが必要な場合は、さらに 2 つのデバイスを追加することで、一度により多くのユーザーにサービスを提供できます。@exolabs はこれらすべてをシームレスに処理し、必要に応じて線形スケーリングのためにクラスターにデバイスを追加します。 新しいEXO 1.0はまもなくオープンソースになりますTM
87.8K