Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
Building the Bloomberg of AI @AlphaSignalAI (280K subs) • MIT lecturer • MILA researcher • 9 yrs in ML • SF 🌁
Každý model základů, který jste kdy použili, má stejnou chybu. Právě to opravili.
Od roku 2015 je každá hluboká síť postavena stejným způsobem: každá vrstva provede výpočty, přidá svůj výsledek k běžnému součtu a předává ho dál.
Jednoduché. Ale je tu problém, že na vrstvě 100 je signál z jakékoli jednotlivé vrstvy pohřben pod součtem všeho ostatního.
Každá nová vrstva je čím dál méně důležitá.
Nikdo to neopravoval, protože to fungovalo dostatečně dobře.
Moonshot AI to právě změnila. Jejich nová metoda, Attention Resizidy, umožňuje každé vrstvě podívat se zpět na všechny předchozí vrstvy a vybrat si, které jsou právě teď důležité.
Místo slepého součtu získáváte selektivní vyhledávání.
Analogie: představte si, že píšete esej, kde se každý návrh automaticky sloučí do jednoho dokumentu. V návrhu 50 jsou vaše poslední úpravy neviditelné.
AttnRes vám umožní mít každý návrh odděleně a vybírat z toho, co potřebujete.
Co to opravuje:
1. Hlubší vrstvy už nejsou přehlušeny
2. Školení se stává stabilnějším v celé síti
3. Model efektivněji využívá svou vlastní hloubku
Aby to bylo praktické ve velkém měřítku, seskupují vrstvy do bloků a věnují pozornost shrnutí bloků místo každé jednotlivé vrstvy.
Režie při odvozu: méně než 2 %.
Výsledek:
O 25 % méně výpočetního výkonu pro dosažení stejného výkonu. Testováno na modelu s 48B parametry. Drží se napříč velikostmi.
Zbytkové spoje jsou už deset let neviditelné v potrubí. Teď se stávají dynamickými.
Další generace modelů neprojde jen vlastními vrstvami, ale budou je prohledávat.

Kimi.ai16. 3. 11:03
Představujeme rezidua pozornosti: Přehodnocení agregace podle hloubky.
Reziduální spojení dlouho spoléhala na pevné, rovnoměrné akumulace. Inspirováni dualitou času a hloubky zavádíme rezidua pozornosti, které nahrazují standardní hloubkové opakování naučenou, na vstupu závislou pozornost přes předchozí vrstvy.
🔹 Umožňuje sítím selektivně získávat minulé reprezentace, což přirozeně snižuje ředění a růst skrytých stavů.
🔹 Zavádí Block AttnRes, který rozděluje vrstvy do komprimovaných bloků, aby bylo praktické přecházet pozornost napříč vrstvami ve větším měřítku.
🔹 Slouží jako efektivní náhrada drop-in, která ukazuje výpočetní výhodu 1,25x při zanedbatelné (<2 %) režii latence inference.
🔹 Ověřeno na Kimi Linear architektuře (celkem 48B, aktivované 3B parametrů), což přináší konzistentní zvýšení výkonu v downstreamu.
🔗Úplná zpráva:

258
Andrew Ng právě vyřešil jeden z největších problémů s agenty.
Vydal Context Hub, nástroj CLI pro načítání živé API dokumentace.
Jeden příkaz. Agent dostane přesně to, co potřebuje, ještě než napíše jediný řádek kódu.
Agenti vycvičení před měsíci letí naslepo. Vymýšlejí názvy parametrů. Nazývají funkce, které už neexistují. Sebevědomě píší kód podle specifikace, která se změnila v posledním vydání.
> Žádné halucinační parametry
> Docs se před každým výjezdem vytahoval čerstvě
> Agenti zaznamenávají užitečné objevy
> Poznámky přetrvávají mezi sezeními
Agent spustí příkaz CLI před dotykem kódu. Místo spoléhání se na zastaralá data čte skutečnou specifikaci.
Rychle se pohybující API dříve znamenala udržovat výpis dokumentů v každém promptu. Teď tu práci dělá agent sám.
Když najde nějaké řešení, uloží si poznámku na příště.

1,5K
Top
Hodnocení
Oblíbené
