Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wyniki NeurIPS są już dostępne; Pluralis ma trzy zaakceptowane prace. Pierwsza to kluczowy wynik badań, który obecnie napędza nasze 7,5 miliarda otwartych wstępnych uruchomień node0. Dwie pozostałe to również istotne wyniki, które zintegrowujemy w kolejnych uruchomieniach. To wszystko z małym zespołem <10 osób, zrealizowane podczas budowy node0.
1) Sieci podprzestrzenne: Skalowanie zdecentralizowanego treningu z efektywnym komunikacyjnie równoległym modelem: Skalowanie modeli doprowadziło do znaczących postępów w głębokim uczeniu, ale trenowanie tych modeli w zdecentralizowanych ustawieniach pozostaje wyzwaniem z powodu wąskich gardeł komunikacyjnych. Chociaż istniejące techniki kompresji są skuteczne w przypadku równoległego przetwarzania danych, nie rozszerzają się na równoległe modele. W przeciwieństwie do treningu równoległego danych, gdzie wymieniane są gradienty wag, równoległe modele wymagają kompresji aktywacji i gradientów aktywacji w miarę ich propagacji przez warstwy, co prowadzi do akumulacji błędów kompresji. Proponujemy nowy algorytm kompresji, który kompresuje zarówno przejścia do przodu, jak i do tyłu, umożliwiając do 99% kompresji bez degradacji zbieżności przy znikomej nadwyżce pamięci/obliczeń. Wykorzystując rekurencyjną strukturę w sieciach transformatorowych, wstępnie definiujemy niskowymiarową podprzestrzeń, aby ograniczyć aktywacje i gradienty, umożliwiając pełną rekonstrukcję w kolejnych warstwach. Nasza metoda osiąga do 100-krotnej poprawy efektywności komunikacyjnej i umożliwia trenowanie modeli o miliardach parametrów na niskobudżetowych GPU połączonych przez internet o prędkości tak niskiej jak 80 Mbps, dorównując zbieżności scentralizowanych systemów w centrach danych z połączeniami 100 Gbps przy równoległym modelu.
2) Mieszanki podprzestrzeni dla efektywnego w kontekście równoległego treningu: Wstępne trenowanie modeli językowych z rozszerzonymi oknami kontekstowymi zwiększa ich zdolność do wykorzystywania bogatych informacji podczas generacji. Istniejące metody dzielą sekwencje wejściowe na kawałki, transmitują je na wiele urządzeń i obliczają uwagę blok po bloku, co wiąże się z znacznymi kosztami komunikacyjnymi. Chociaż są wykonalne w klastrach o wysokiej prędkości, te metody są niepraktyczne dla zdecentralizowanego treningu w warunkach niskiej przepustowości. Proponujemy metodę kompresji dla efektywnego komunikacyjnie równoległego przetwarzania w zdecentralizowanych ustawieniach, osiągając niezwykły wskaźnik kompresji przekraczający 95% przy znikomej nadwyżce i bez utraty zbieżności. Naszym kluczowym spostrzeżeniem jest wykorzystanie wewnętrznej struktury niskiej rangi aktywacji poprzez dynamiczne ograniczanie ich do nauczonych mieszanek podprzestrzeni za pomocą efektywnych reparametryzacji. Demonstrujemy skalowanie modeli zdecentralizowanych o miliardach parametrów do długości kontekstu przekraczających 100K tokenów w sieciach o prędkości tak wolnej jak 300 Mbps, dorównując prędkości zbieżności modeli scentralizowanych na połączeniach 100 Gbps.
3) Modele protokołów nieekstrakcyjnych: Współpraca w treningu i wnioskowaniu bez materializacji wag: Rozważamy zdecentralizowane ustawienie treningowe, w którym uczestnicy wspólnie trenują i serwują dużą sieć neuronową, a każdy uczestnik przetwarza tylko część modelu. W tym ustawieniu badamy możliwość wag niepodlegających materializacji, gdzie pełny zestaw wag nigdy nie jest dostępny dla żadnego uczestnika. Wprowadzamy Modele Protokółów Nieekstrakcyjnych (UPM): ramy treningowe i wnioskowania, które wykorzystują podział modelu, aby zapewnić, że fragmenty modelu (tj. podzbiory) posiadane przez uczestników są niekompatybilne w różnych krokach czasowych. UPM okresowo wprowadzają zmienne w czasie, losowe, odwracalne przekształcenia na granicach uczestników; zachowując ogólną funkcję sieci, a jednocześnie czyniąc zbiory międzyczasowe niespójnymi. Na Qwen-2.5-0.5B i Llama-3.2-1B, 10 000 przekształceń nie zmienia FP 32 złożoności (PPL drift Jensen–Shannon). Zastosowanie przekształcenia co 30 sekund zwiększa opóźnienie o 3%, przepustowość o 0,1% i nadwyżkę pamięci GPU o 10% podczas wnioskowania, podczas gdy nadwyżka treningowa spada do 1,6% czasu i < 1% pamięci. Rozważamy kilka ataków, pokazując, że wymagania bezpośrednich ataków są niepraktyczne i łatwe do obrony, a że dostrajanie gradientowe zszytych części zużywa tokeny wymagane do treningu od podstaw. Umożliwiając modele do wspólnego trenowania, ale nie do ekstrakcji, UPM czynią praktycznym wbudowywanie programowych mechanizmów zachęt w zdecentralizowanym treningu napędzanym przez społeczność.
Najlepsze
Ranking
Ulubione