DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

kel

Forecaster. nu sfaturi financiare. ce-ar fi dacă?

Permițând modelelor să fie antrenate în colaborare, dar nu extrase, UPM-urile fac practică încorporarea mecanismelor de stimulare programatică în instruirea descentralizată condusă de comunitate.

Rezultatele NeurIPS au fost publicate; Pluralis are trei lucrări acceptate. Primul este rezultatul cercetării de bază care alimentează în prezent nodul nostru de rulare de preantrenament deschis de 7,5 miliarde0. Al doilea doi sunt, de asemenea, rezultate majore pe care le vom integra în rundele ulterioare. Acest lucru se întâmplă cu o echipă mică de <10 persoane, realizat în timp ce construiți nodul 0. 1) Rețele subspațiale: Scalarea antrenamentului descentralizat cu paralelism eficient al modelelor de comunicare: Scalarea modelelor a dus la progrese semnificative în învățarea profundă, dar antrenarea acestor modele în setări descentralizate rămâne o provocare din cauza blocajelor de comunicare. În timp ce tehnicile de compresie existente sunt eficiente în paralel de date, ele nu se extind la paralelismul modelului. Spre deosebire de antrenamentul paralel de date, unde gradientele de greutate sunt schimbate, modelul paralel necesită comprimarea activărilor și a gradientelor de activare pe măsură ce se propagă prin straturi, acumulând erori de compresie. Propunem un nou algoritm de compresie care comprimă atât trecerile înainte, cât și cele înapoi, permițând o compresie de până la 99% fără degradare a convergenței cu supraîncărcare neglijabilă a memoriei/calculului. Prin utilizarea unei structuri recursive în rețelele de transformatoare, predefinim un subspațiu de dimensiuni joase pentru a limita activările și gradientele, permițând reconstrucția completă în straturile ulterioare. Metoda noastră obține o îmbunătățire de până la 100 de ori a eficienței comunicațiilor și permite antrenarea modelelor la scară de miliarde de parametri pe GPU-uri low-end conectate prin viteze de internet de până la 80 Mbps, potrivindu-se cu convergența sistemelor centralizate de centre de date cu conexiuni de 100 Gbps cu modele paralele. 2) Amestecuri de subspații pentru antrenament paralel de context eficient în lățime de bandă: Modelele de limbaj de pre-antrenament cu ferestre de context extinse le îmbunătățește capacitatea de a valorifica informații bogate în timpul generării. Metodele existente împart secvențele de intrare în bucăți, le difuzează pe mai multe dispozitive și calculează atenția bloc cu bloc, ceea ce implică o supraîncărcare semnificativă a comunicării. Deși fezabile în clustere de mare viteză, aceste metode sunt impracticabile pentru antrenamentul descentralizat pe conexiuni cu lățime de bandă redusă. Propunem o metodă de compresie pentru paralelismul contextului eficient de comunicare în setări descentralizate, obținând o rată de compresie remarcabilă de peste 95% cu cheltuieli generale neglijabile și fără pierderi de convergență. Ideea noastră cheie este de a exploata structura intrinsecă de rang scăzut a rezultatelor de activare prin constrângerea lor dinamică la amestecuri învățate de subspații prin reparametrizări eficiente. Demonstrăm scalarea modelelor descentralizate de miliarde de parametri la lungimi de context care depășesc 100K token-uri în rețele de până la 300Mbps, egalând viteza de convergență a ceasului de perete a modelelor centralizate pe interconexiuni de 100Gbps. 3) Modele de protocol neextractabile: antrenament colaborativ și inferență fără materializare a greutății: Luăm în considerare o configurație de antrenament descentralizată în care participanții antrenează și deservesc în colaborare o rețea neuronală mare și în care fiecare participant procesează doar un subset al modelului. În această configurație, explorăm posibilitatea unor greutăți nematerializabile, în care un set complet de greutăți nu este niciodată disponibil pentru niciun participant. Vă prezentăm Unextractable Protocol Models (UPM): un cadru de antrenament și inferență care folosește configurația modelului fragmentat pentru a se asigura că fragmentele de model (adică subseturile) deținute de participanți sunt incompatibile la diferite etape de timp. UPM-urile injectează periodic transformări aleatorii, inversabile variabile în timp, la limitele participanților; păstrarea funcției generale de rețea, dar făcând ansamblurile cross-time incoerente. Pe Qwen-2.5-0.5B și Llama-3.2-1B, 10 000 de transformări lasă neschimbată nedumerirea FP 32 (deriva PPL Jensen-Shannon). Aplicarea unei transformări la fiecare 30 de secunde adaugă 3% latență, 0,1% lățime de bandă și 10% supraîncărcare a memoriei GPU la inferență, în timp ce supraîncărcarea antrenamentului scade la 1,6% timp și < 1% memorie. Luăm în considerare mai multe atacuri, arătând că cerințele atacurilor directe sunt nepractice și ușor de apărat, și că reglarea fină bazată pe gradient a partițiilor cusute consumă token-urile necesare pentru a se antrena de la zero. Permițând modelelor să fie antrenate în colaborare, dar nu extrase, UPM-urile fac practică încorporarea mecanismelor de stimulare programatică în instruirea descentralizată condusă de comunitate.

Limită superioară

Clasament

Favorite