Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Právě jsem to udělal s několika přáteli v reálném životě.
Mám pocit, jako bych poprvé v životě pořádně četl knihu.
Získali jsme mnohem lepší představu o tom, jak do práce vlastně zapadají všechny motivující otázky a důkazy.
Vzájemné kladení velmi základních otázek (a následná snaha na ně odpovědět) nás vede k uvědomění si, jak nejasná naše mapa terénu ve skutečnosti byla. A jak zmatená byla naše původní interpretace zdánlivě jednoduchých pojmů.

Dwarkesh Patel18. 9. 03:57
Bylo by zábavné udělat čtenářský klub pro knihy/články, kterými procházím, abych se připravil na rozhovory (nebo se jen zajímám o čtení bez ohledu na to).
Nejlepší způsob organizace? Twitter Live? Discord/Slack? Nebo jen tweetovat myšlenky a nechat lidi diskutovat v komentářích? Něco jiného?
82
Na co se mám @RichardSSutton zeptat?
Otec zpětnovazebního učení, letošní držitel Turingovy ceny; autor knihy "The Bitter Lesson" a v nedávné době "The Era of Experience"?

Deedy19. 4. 2025
Rich Sutton právě publikoval svou nejdůležitější esej o umělé inteligenci od Hořké lekce: "Vítejte v éře zkušeností"
Sutton a jeho poradce Silver tvrdí, že "éra lidských dat", které dominuje předtrénink pod dohledem a RL ze zpětné vazby od lidí, zasáhla klesající výnosy; Budoucnost bude patřit agentům, kteří
— nepřetržitě působí v reálném nebo simulovaném světě,
— vytvářet a označovat vlastní tréninková data prostřednictvím interakce
— optimalizovat odměny založené na životním prostředí, a nikoli pouze na lidských preferencích, a
- zdokonalují své modely světa a plány v průběhu celoživotních proudů zkušeností.

32
Jak funguje backprop s RL?
Předností backprop je, že aktualizuje KAŽDÝ jednotlivý parametr v poměru k tomu, jak moc se kroutí To je možné pouze tehdy, pokud víte, jak změna jednotlivých parametrů ovlivňuje ztrátovou funkci.
Ale u RL tomu tak samozřejmě není: prostředí (a odměna, kterou produkuje) je zcela oddělený systém. Nemáte nějakou spojitou diferencovatelnou funkci, která vám řekne, jak moc kroucení každého parametru ovlivňuje pravděpodobnost pádu z útesu.
Řešení jsou docela chytrá! Zde je několik způsobů, jak přijít s diferencovatelným zástupcem odměny:
Metody gradientu zásad: Nemůžete rozlišovat odměnu s ohledem na síť. Můžete však rozlišovat pravděpodobnosti různých akcí/tokenů navržených sítí. Takže prostě udělejme ztrátu = (součet záporných logů) pravděpodobností VÁŽENÝCH odměnou. Ztráta je vyšší, když je odměna nižší, takže model se učí vydávat tokeny, což vede k vyšší odměně s vyšší pravděpodobností.
Q-learning: Opět platí, že odměna není diferencovatelná s ohledem na síť. Ale víte, co to je? Predikce odměny ze strany sítě. A můžete ji aktualizovat na základě toho, jak špatná byla tato předpověď. Nyní, když můžete předvídat, jaké akce povedou k jaké odměně, může být vaší zásadou jednoduše provést akce s nejvyšší očekávanou odměnou.

378
Top
Hodnocení
Oblíbené