DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Pluralis Research

Protokoll-Lernen

Die Ergebnisse von NeurIPS sind veröffentlicht; Pluralis hat drei akzeptierte Arbeiten. Die erste ist das zentrale Forschungsergebnis, das derzeit unser 7,5B Open-Pretraining-Lauf node0 antreibt. Die beiden anderen sind ebenfalls bedeutende Ergebnisse, die wir in zukünftige Läufe integrieren werden. Dies geschieht mit einem kleinen Team von <10 Personen, während node0 aufgebaut wird. 1) Subspace Networks: Skalierung des dezentralen Trainings mit kommunikationseffizientem Modellparallelismus: Die Skalierung von Modellen hat zu erheblichen Fortschritten im Deep Learning geführt, aber das Training dieser Modelle in dezentralen Umgebungen bleibt aufgrund von Kommunikationsengpässen eine Herausforderung. Während bestehende Kompressionstechniken im Datenparallelismus effektiv sind, lassen sie sich nicht auf den Modellparallelismus übertragen. Im Gegensatz zum Datenparalleltraining, bei dem Gewichtsgrafiken ausgetauscht werden, erfordert der Modellparallelismus die Kompression von Aktivierungen und Aktivierungsgradienten, während sie durch Schichten propagieren und Kompressionsfehler ansammeln. Wir schlagen einen neuartigen Kompressionsalgorithmus vor, der sowohl Vorwärts- als auch Rückwärtsdurchläufe komprimiert und eine Kompression von bis zu 99 % ohne Konvergenzverschlechterung bei vernachlässigbarem Speicher-/Rechenaufwand ermöglicht. Durch die Nutzung einer rekursiven Struktur in Transformern definieren wir einen niederdimensionalen Unterraum vor, um die Aktivierungen und Gradienten einzuschränken, was eine vollständige Rekonstruktion in nachfolgenden Schichten ermöglicht. Unsere Methode erreicht eine Verbesserung der Kommunikationseffizienz um bis zu 100x und ermöglicht das Training von Modellen mit Milliarden von Parametern über Low-End-GPUs, die über Internetgeschwindigkeiten von nur 80 Mbps verbunden sind, und erreicht die Konvergenz zentralisierter Rechenzentrumsysteme mit 100 Gbps-Verbindungen im Modellparallel. 2) Mischungen von Unterräumen für bandbreiteneffizientes kontextparalleles Training: Das Pretraining von Sprachmodellen mit erweiterten Kontextfenstern verbessert ihre Fähigkeit, reichhaltige Informationen während der Generierung zu nutzen. Bestehende Methoden teilen Eingabesequenzen in Abschnitte, senden sie an mehrere Geräte und berechnen die Aufmerksamkeit Block für Block, was erhebliche Kommunikationskosten verursacht. Während dies in Hochgeschwindigkeitsclustern machbar ist, sind diese Methoden für dezentrales Training über Verbindungen mit geringer Bandbreite unpraktisch. Wir schlagen eine Kompressionsmethode für kommunikationseffizienten Kontextparallelismus in dezentralen Umgebungen vor, die eine bemerkenswerte Kompressionsrate von über 95 % mit vernachlässigbarem Aufwand und ohne Verlust in der Konvergenz erreicht. Unser Schlüsselgedanke ist es, die intrinsische Niederrangstruktur der Aktivierungsausgaben auszunutzen, indem wir sie dynamisch auf erlernte Mischungen von Unterräumen über effiziente Reparametrisierung einschränken. Wir demonstrieren die Skalierung von dezentralen Modellen mit Milliarden von Parametern auf Kontextlängen von über 100K Tokens in Netzwerken, die so langsam sind wie 300 Mbps, und erreichen die Wand-Uhr-Konvergenzgeschwindigkeit zentralisierter Modelle auf 100 Gbps-Verbindungen. 3) Unextrahierbare Protokollmodelle: Kollaboratives Training und Inferenz ohne Gewichtsmaterialisierung: Wir betrachten ein dezentrales Trainingssetup, in dem die Teilnehmer gemeinsam ein großes neuronales Netzwerk trainieren und bereitstellen, wobei jeder Teilnehmer nur einen Teil des Modells verarbeitet. In diesem Setup untersuchen wir die Möglichkeit unmaterialisierbarer Gewichte, bei denen ein vollständiger Gewichtssatz niemals einem Teilnehmer zur Verfügung steht. Wir führen unextrahierbare Protokollmodelle (UPMs) ein: ein Trainings- und Inferenzframework, das das shardete Modellsetup nutzt, um sicherzustellen, dass Modellteile (d. h. Teilmengen), die von Teilnehmern gehalten werden, zu verschiedenen Zeitpunkten inkompatibel sind. UPMs injizieren periodisch zeitvariierende, zufällige, umkehrbare Transformationen an den Teilnehmergrenzen; sie bewahren die Gesamtfunktion des Netzwerks und machen gleichzeitig zeitübergreifende Zusammenstellungen inkohärent. Bei Qwen-2.5-0.5B und Llama-3.2-1B verändern 10.000 Transformationen die FP 32 Perplexität nicht (PPL Jensen–Shannon Drift). Die Anwendung einer Transformation alle 30 Sekunden erhöht die Latenz um 3 %, die Bandbreite um 0,1 % und den GPU-Speicheraufwand um 10 % bei der Inferenz, während der Trainingsaufwand auf 1,6 % Zeit und < 1 % Speicher sinkt. Wir betrachten mehrere Angriffe und zeigen, dass die Anforderungen an direkte Angriffe unpraktisch und leicht abzuwehren sind und dass gradientenbasierte Feinabstimmungen von genähten Partitionen die Tokens verbrauchen, die erforderlich sind, um von Grund auf zu trainieren. Indem sie es ermöglichen, Modelle kollaborativ zu trainieren, aber nicht zu extrahieren, machen UPMs es praktikabel, programmatische Anreizmechanismen im gemeinschaftsgetriebenen dezentralen Training einzubetten.

Top

Ranking

Favoriten