DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Pluralis Research

Pembelajaran Protokol

Hasil NeurIPS keluar; Pluralis memiliki tiga makalah yang diterima. Yang pertama adalah hasil penelitian inti yang saat ini memberi daya pada node0 run prapelatihan terbuka 7.5B kami. Dua yang kedua juga merupakan hasil utama yang akan kami integrasikan ke dalam proses berikutnya. Ini dengan tim kecil yang terdiri dari <10 orang, dilakukan saat membangun node0. 1) Jaringan Subruang: Menskalakan Pelatihan Terdesentralisasi dengan Paralelisme Model Efisien Komunikasi: Model penskalaan telah menghasilkan kemajuan yang signifikan dalam pembelajaran mendalam, tetapi melatih model ini dalam pengaturan terdesentralisasi tetap menantang karena kemacetan komunikasi. Sementara teknik kompresi yang ada efektif dalam paralel data, mereka tidak meluas ke paralelisme model. Tidak seperti pelatihan paralel data, di mana gradien bobot dipertukarkan, paralel model memerlukan aktivasi kompresi dan gradien aktivasi saat merambat melalui lapisan, mengumpulkan kesalahan kompresi. Kami mengusulkan algoritma kompresi baru yang mengompresi lintasan maju dan mundur, memungkinkan kompresi hingga 99% tanpa degradasi konvergensi dengan overhead memori/komputasi yang dapat diabaikan. Dengan memanfaatkan struktur rekursif dalam jaringan transformator, kami mendefinisikan subruang dimensi rendah untuk membatasi aktivasi dan gradien, memungkinkan rekonstruksi penuh di lapisan berikutnya. Metode kami mencapai peningkatan efisiensi komunikasi hingga 100x lipat dan memungkinkan pelatihan model skala miliaran parameter melalui GPU kelas bawah yang terhubung melalui kecepatan internet tingkat konsumen serendah 80Mbps, mencocokkan konvergensi sistem pusat data terpusat dengan koneksi 100Gbps dengan paralel model. 2) Campuran Subruang untuk Pelatihan Paralel Konteks Efisien Bandwidth: Model bahasa prapelatihan dengan jendela konteks yang diperluas meningkatkan kemampuannya untuk memanfaatkan informasi yang kaya selama pembuatan. Metode yang ada membagi urutan input menjadi beberapa bagian, menyiarkannya di beberapa perangkat, dan menghitung perhatian blok demi blok yang menimbulkan overhead komunikasi yang signifikan. Meskipun layak dalam klaster berkecepatan tinggi, metode ini tidak praktis untuk pelatihan terdesentralisasi melalui koneksi bandwidth rendah. Kami mengusulkan metode kompresi untuk paralelisme konteks yang efisien komunikasi dalam pengaturan terdesentralisasi, mencapai tingkat kompresi yang luar biasa lebih dari 95% dengan overhead yang dapat diabaikan dan tidak ada kehilangan konvergensi. Wawasan utama kami adalah mengeksploitasi struktur intrinsik peringkat rendah dari output aktivasi dengan membatasinya secara dinamis ke campuran subruang yang dipelajari melalui reparameterisasi yang efisien. Kami mendemonstrasikan penskalaan model terdesentralisasi miliaran parameter ke panjang konteks melebihi 100 ribu token pada jaringan selambat 300Mbps, sesuai dengan kecepatan konvergensi jam dinding dari model terpusat pada interkoneksi 100 Gbps. 3) Model Protokol yang Tidak Dapat Diekstraksi: Pelatihan dan Inferensi Kolaboratif tanpa Materialisasi Bobot: Kami mempertimbangkan pengaturan pelatihan terdesentralisasi di mana peserta secara kolaboratif melatih dan melayani jaringan saraf yang besar, dan di mana setiap peserta hanya memproses bagian dari model. Dalam pengaturan ini, kami mengeksplorasi kemungkinan bobot yang tidak dapat diwujudkan, di mana set bobot penuh tidak pernah tersedia untuk satu peserta. Kami memperkenalkan Model Protokol yang Tidak Dapat Diekstraksi (UPM): kerangka kerja pelatihan dan inferensi yang memanfaatkan pengaturan model serpihan untuk memastikan serpihan model (yaitu, subset) yang dipegang oleh peserta tidak kompatibel pada langkah waktu yang berbeda. UPM secara berkala menyuntikkan transformasi yang bervariasi, acak, dan terbalik pada batas peserta; mempertahankan fungsi jaringan secara keseluruhan namun membuat rakitan lintas waktu tidak koheren. Pada Qwen-2.5-0.5B dan Llama-3.2-1B, 10.000 transformasi meninggalkan kebingungan FP 32 tidak berubah (penyimpangan PPL Jensen-Shannon). Menerapkan transformasi setiap 30 detik menambahkan latensi 3%, bandwidth 0,1%, dan overhead memori GPU 10% saat inferensi, sementara overhead pelatihan turun menjadi 1,6% waktu dan memori < 1%. Kami mempertimbangkan beberapa serangan, menunjukkan bahwa persyaratan serangan langsung tidak praktis dan mudah dipertahankan, dan bahwa penyempurnaan partisi yang dijahit berbasis gradien menghabiskan token yang diperlukan untuk berlatih dari awal. Dengan memungkinkan model dilatih secara kolaboratif namun tidak diekstraksi, UPM memperpraktiskan untuk menanamkan mekanisme insentif terprogram dalam pelatihan terdesentralisasi yang digerakkan oleh masyarakat.

Teratas

Peringkat

Favorit