NeurIPS 结果已公布;Pluralis 有三篇论文被接受。第一篇是核心研究成果,目前正在支持我们的 7.5B 开放预训练运行 node0。第二篇和第三篇也是重要成果,我们将把它们整合到后续的运行中。这是一个小团队完成的,人数少于 10 人,同时在构建 node0。 1) 子空间网络:通过通信高效的模型并行扩展去中心化训练:扩展模型已在深度学习中取得了显著进展,但在去中心化环境中训练这些模型仍然面临通信瓶颈的挑战。虽然现有的压缩技术在数据并行中有效,但它们并不适用于模型并行。与数据并行训练不同,数据并行训练中权重梯度被交换,而模型并行需要在激活和激活梯度通过层传播时进行压缩,从而累积压缩误差。我们提出了一种新颖的压缩算法,可以压缩前向和后向传递,实现高达 99% 的压缩率,并且没有收敛降级,内存/计算开销微乎其微。通过利用变换器网络中的递归结构,我们预定义了一个低维子空间来限制激活和梯度,从而允许在后续层中完全重构。我们的方法在通信效率上实现了高达 100 倍的提升,并使得在低端 GPU 上以低至 80Mbps 的消费者级互联网速度训练十亿参数规模的模型,匹配了具有 100Gbps 连接的集中式数据中心系统的收敛效果,采用模型并行。 2) 带宽高效的上下文并行训练的子空间混合:使用扩展上下文窗口预训练语言模型增强了它们在生成过程中利用丰富信息的能力。现有方法将输入序列分割成块,在多个设备之间广播,并逐块计算注意力,这会产生显著的通信开销。虽然在高速集群中可行,但这些方法在低带宽连接的去中心化训练中并不实用。我们提出了一种用于去中心化环境中通信高效上下文并行的压缩方法,实现了超过 95% 的显著压缩率,开销微乎其微且没有收敛损失。我们的关键见解是通过高效的重新参数化动态约束激活输出的内在低秩结构,利用学习到的子空间混合。我们展示了在网络速度低至 300Mbps 的情况下,将十亿参数的去中心化模型扩展到超过 100K 令牌的上下文长度,匹配了集中式模型在 100Gbps 互连上的墙钟收敛速度。 3) 不可提取协议模型:无需权重物化的协作训练和推理: 我们考虑一种去中心化训练设置,其中参与者协作训练和服务一个大型神经网络,每个参与者仅处理模型的一个子集。在这种设置中,我们探索不可物化权重的可能性,即任何一个参与者都永远无法获得完整的权重集。我们引入了不可提取协议模型(UPMs):一种利用分片模型设置的训练和推理框架,确保参与者持有的模型片段(即子集)在不同时间步骤下不兼容。UPMs 定期在参与者边界注入时间变化的随机可逆变换;保持整体网络功能,同时使跨时间的组合变得不连贯。在 Qwen-2.5-0.5B 和 Llama-3.2-1B 上,10,000 次变换使 FP 32 困惑度保持不变(PPL Jensen–Shannon 漂移)。每 30 秒应用一次变换会增加 3% 的延迟,0.1% 的带宽和 10% 的 GPU 内存开销,而训练开销降至 1.6% 的时间和 < 1% 的内存。我们考虑了几种攻击,表明直接攻击的要求不切实际且易于防御,并且基于梯度的拼接分区微调消耗了从头训练所需的令牌。通过使模型能够协作训练但不被提取,UPMs 使得在社区驱动的去中心化训练中嵌入程序激励机制变得可行。