DApp Store | Centrum Web3 pro události a hry

Prozkoumejte nadílku ve Web3 a získejte další úžasné odměny.

Populární témata

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-0,91 %

Boopa+2,11 %

PORK+4,45 %

Dwarkesh Patel

Dwarkesh PatelPřed 15 h

Právě jsem to udělal s několika přáteli v reálném životě. Mám pocit, jako bych poprvé v životě pořádně četl knihu. Získali jsme mnohem lepší představu o tom, jak do práce vlastně zapadají všechny motivující otázky a důkazy. Vzájemné kladení velmi základních otázek (a následná snaha na ně odpovědět) nás vede k uvědomění si, jak nejasná naše mapa terénu ve skutečnosti byla. A jak zmatená byla naše původní interpretace zdánlivě jednoduchých pojmů.

Dwarkesh Patel18. 9. 03:57

Bylo by zábavné udělat čtenářský klub pro knihy/články, kterými procházím, abych se připravil na rozhovory (nebo se jen zajímám o čtení bez ohledu na to). Nejlepší způsob organizace? Twitter Live? Discord/Slack? Nebo jen tweetovat myšlenky a nechat lidi diskutovat v komentářích? Něco jiného?

Dwarkesh PatelPřed 20 h

Na co se mám @RichardSSutton zeptat? Otec zpětnovazebního učení, letošní držitel Turingovy ceny; autor knihy "The Bitter Lesson" a v nedávné době "The Era of Experience"?

Deedy19. 4. 2025

Rich Sutton právě publikoval svou nejdůležitější esej o umělé inteligenci od Hořké lekce: "Vítejte v éře zkušeností" Sutton a jeho poradce Silver tvrdí, že "éra lidských dat", které dominuje předtrénink pod dohledem a RL ze zpětné vazby od lidí, zasáhla klesající výnosy; Budoucnost bude patřit agentům, kteří — nepřetržitě působí v reálném nebo simulovaném světě, — vytvářet a označovat vlastní tréninková data prostřednictvím interakce — optimalizovat odměny založené na životním prostředí, a nikoli pouze na lidských preferencích, a - zdokonalují své modely světa a plány v průběhu celoživotních proudů zkušeností.

Dwarkesh Patel20. 9. 03:23

Jak funguje backprop s RL? Předností backprop je, že aktualizuje KAŽDÝ jednotlivý parametr v poměru k tomu, jak moc se kroutí To je možné pouze tehdy, pokud víte, jak změna jednotlivých parametrů ovlivňuje ztrátovou funkci. Ale u RL tomu tak samozřejmě není: prostředí (a odměna, kterou produkuje) je zcela oddělený systém. Nemáte nějakou spojitou diferencovatelnou funkci, která vám řekne, jak moc kroucení každého parametru ovlivňuje pravděpodobnost pádu z útesu. Řešení jsou docela chytrá! Zde je několik způsobů, jak přijít s diferencovatelným zástupcem odměny: Metody gradientu zásad: Nemůžete rozlišovat odměnu s ohledem na síť. Můžete však rozlišovat pravděpodobnosti různých akcí/tokenů navržených sítí. Takže prostě udělejme ztrátu = (součet záporných logů) pravděpodobností VÁŽENÝCH odměnou. Ztráta je vyšší, když je odměna nižší, takže model se učí vydávat tokeny, což vede k vyšší odměně s vyšší pravděpodobností. Q-learning: Opět platí, že odměna není diferencovatelná s ohledem na síť. Ale víte, co to je? Predikce odměny ze strany sítě. A můžete ji aktualizovat na základě toho, jak špatná byla tato předpověď. Nyní, když můžete předvídat, jaké akce povedou k jaké odměně, může být vaší zásadou jednoduše provést akce s nejvyšší očekávanou odměnou.

378

Top

Hodnocení

Oblíbené