DApp Store | Centrum Web3 pro události a hry

Populární témata

Lior Alexander

Building the Bloomberg of AI @AlphaSignalAI (280K subs) • MIT lecturer • MILA researcher • 9 yrs in ML • SF 🌁

Každý model základů, který jste kdy použili, má stejnou chybu. Právě to opravili. Od roku 2015 je každá hluboká síť postavena stejným způsobem: každá vrstva provede výpočty, přidá svůj výsledek k běžnému součtu a předává ho dál. Jednoduché. Ale je tu problém, že na vrstvě 100 je signál z jakékoli jednotlivé vrstvy pohřben pod součtem všeho ostatního. Každá nová vrstva je čím dál méně důležitá. Nikdo to neopravoval, protože to fungovalo dostatečně dobře. Moonshot AI to právě změnila. Jejich nová metoda, Attention Resizidy, umožňuje každé vrstvě podívat se zpět na všechny předchozí vrstvy a vybrat si, které jsou právě teď důležité. Místo slepého součtu získáváte selektivní vyhledávání. Analogie: představte si, že píšete esej, kde se každý návrh automaticky sloučí do jednoho dokumentu. V návrhu 50 jsou vaše poslední úpravy neviditelné. AttnRes vám umožní mít každý návrh odděleně a vybírat z toho, co potřebujete. Co to opravuje: 1. Hlubší vrstvy už nejsou přehlušeny 2. Školení se stává stabilnějším v celé síti 3. Model efektivněji využívá svou vlastní hloubku Aby to bylo praktické ve velkém měřítku, seskupují vrstvy do bloků a věnují pozornost shrnutí bloků místo každé jednotlivé vrstvy. Režie při odvozu: méně než 2 %. Výsledek: O 25 % méně výpočetního výkonu pro dosažení stejného výkonu. Testováno na modelu s 48B parametry. Drží se napříč velikostmi. Zbytkové spoje jsou už deset let neviditelné v potrubí. Teď se stávají dynamickými. Další generace modelů neprojde jen vlastními vrstvami, ale budou je prohledávat.

Top

Hodnocení

Oblíbené