DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

kel

Forecaster. Geen financieel advies. Wat als?

Door modellen samen te laten trainen zonder dat ze geëxtraheerd kunnen worden, maken UPM's het praktisch om programmatische incentive-mechanismen in gemeenschapsgedreven gedecentraliseerde training te integreren.

De NeurIPS-resultaten zijn bekend; Pluralis heeft drie geaccepteerde papers. De eerste is het kernonderzoeksresultaat dat momenteel onze 7,5B open pretraining run node0 aandrijft. De tweede twee zijn ook belangrijke resultaten die we zullen integreren in volgende runs. Dit is gedaan met een klein team van <10 mensen, terwijl we node0 bouwden. 1) Subspace Networks: Schalen van Gedecentraliseerde Training met Communicatie-Efficiënte Model Parallelisme: Het schalen van modellen heeft geleid tot aanzienlijke vooruitgangen in deep learning, maar het trainen van deze modellen in gedecentraliseerde omgevingen blijft een uitdaging vanwege communicatieknelpunten. Hoewel bestaande compressietechnieken effectief zijn in data-parallel, strekken ze zich niet uit tot model parallelisme. In tegenstelling tot data-parallel training, waar gewichtsgradiënten worden uitgewisseld, vereist model-parallel het comprimeren van activaties en activatiegradiënten terwijl ze door lagen voortplanten, wat compressiefouten accumuleert. We stellen een nieuw compressie-algoritme voor dat zowel voorwaartse als achterwaartse passes comprimeert, waardoor tot 99% compressie mogelijk is zonder verslechtering van de convergentie met verwaarloosbare geheugen-/rekenoverhead. Door gebruik te maken van een recursieve structuur in transformer-netwerken, definiëren we een laag-dimensionale subruimte om de activaties en gradiënten te beperken, waardoor volledige reconstructie in volgende lagen mogelijk is. Onze methode bereikt tot 100x verbetering in communicatie-efficiëntie en maakt het mogelijk om modellen met miljarden parameters te trainen op low-end GPU's die zijn verbonden via consumenten-internetverbindingen met snelheden zo laag als 80Mbps, wat overeenkomt met de convergentie van gecentraliseerde datacenter systemen met 100Gbps verbindingen met model parallel. 2) Mengsels van Subruimten voor Bandbreedte Efficiënte Context Parallel Training: Het voortrainen van taalmodellen met uitgebreide contextvensters verbetert hun vermogen om rijke informatie tijdens generatie te benutten. Bestaande methoden splitsen invoersequenties in stukken, zenden ze uit over meerdere apparaten en berekenen aandacht blok voor blok, wat aanzienlijke communicatie-overhead met zich meebrengt. Hoewel haalbaar in high-speed clusters, zijn deze methoden onpraktisch voor gedecentraliseerde training over low-bandwidth verbindingen. We stellen een compressiemethode voor voor communicatie-efficiënte context parallelisme in gedecentraliseerde omgevingen, met een opmerkelijke compressiegraad van meer dan 95% met verwaarloosbare overhead en geen verlies in convergentie. Onze belangrijkste inzicht is om de intrinsieke laag-rangstructuur van activatie-uitgangen te benutten door ze dynamisch te beperken tot geleerde mengsels van subruimten via efficiënte herparameterisaties. We demonstreren het schalen van gedecentraliseerde modellen met miljarden parameters naar contextlengtes die meer dan 100K tokens overschrijden op netwerken die zo traag zijn als 300Mbps, wat overeenkomt met de wandklok-convergentiesnelheid van gecentraliseerde modellen op 100Gbps interconnecties. 3) Onextractable Protocol Models: Samenwerkende Training en Inferentie zonder Gewichtmaterialisatie: We beschouwen een gedecentraliseerde trainingsopstelling waarin de deelnemers gezamenlijk een groot neuraal netwerk trainen en bedienen, en waarbij elke deelnemer slechts een subset van het model verwerkt. In deze opstelling verkennen we de mogelijkheid van onmaterialiseerbare gewichten, waarbij een volledige gewichtsset nooit beschikbaar is voor een enkele deelnemer. We introduceren Onextractable Protocol Models (UPMs): een trainings- en inferentiekader dat gebruik maakt van de geshardde modelopstelling om ervoor te zorgen dat modelshards (d.w.z. subsets) die door deelnemers worden vastgehouden, op verschillende tijdstippen incompatibel zijn. UPM's injecteren periodiek tijdsvariërende, willekeurige, omkeerbare transformaties bij deelnemersgrenzen; waarbij de algehele netwerkfunctie behouden blijft, maar cross-time assemblages incoherent worden. Op Qwen-2.5-0.5B en Llama-3.2-1B, 10.000 transformaties laten FP 32 perplexiteit onveranderd (PPL Jensen–Shannon drift). Het toepassen van een transformatie elke 30 seconden voegt 3% latentie, 0,1% bandbreedte en 10% GPU-geheugen overhead toe bij inferentie, terwijl de trainingsoverhead daalt tot 1,6% tijd en < 1% geheugen. We overwegen verschillende aanvallen, waarbij we aantonen dat de vereisten voor directe aanvallen onpraktisch en gemakkelijk te verdedigen zijn, en dat gradient-gebaseerde fine-tuning van gestikte delen een deel van de tokens vereist die nodig zijn om vanaf nul te trainen. Door modellen in staat te stellen om samen te worden getraind maar niet te worden geëxtraheerd, maken UPM's het praktisch om programmatische incentive-mechanismen in gemeenschapsgestuurde gedecentraliseerde training in te bedden.

Boven

Positie

Favorieten