Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Właśnie zrobiłem to z kilkoma przyjaciółmi w rzeczywistości.
Czuję, jakbym po raz pierwszy w życiu naprawdę przeczytał książkę.
Zyskaliśmy znacznie lepsze zrozumienie, jak wszystkie motywujące pytania i dowody rzeczywiście pasują do tezy.
Zadawanie sobie bardzo podstawowych pytań (a następnie próba odpowiedzi na nie) doprowadziło nas do uświadomienia sobie, jak niejasna była nasza mapa terenu. I jak bardzo mylna była nasza pierwotna interpretacja pozornie prostych pojęć.

Dwarkesh Patel18 wrz, 03:57
Fajnie byłoby zorganizować klub czytelniczy dla książek/artykułów, które przeglądam, aby przygotować się do rozmów kwalifikacyjnych (lub po prostu z ciekawości, aby poczytać).
Jaki jest najlepszy sposób na organizację? Twitter Live? Discord/Slack? A może po prostu tweetować myśli i pozwolić ludziom dyskutować w komentarzach? Coś innego?
88
Co powinienem zapytać @RichardSSutton?
Ojciec uczenia przez wzmocnienie, tegoroczny laureat Nagrody Turinga; autor *The Bitter Lesson* oraz ostatnio *The Era of Experience*?

Deedy19 kwi 2025
Rich Sutton właśnie opublikował swój najważniejszy esej na temat sztucznej inteligencji od czasu The Bitter Lesson: "Witamy w erze doświadczeń"
Sutton i jego doradca Silver twierdzą, że "era danych ludzkich", zdominowana przez nadzorowane szkolenie wstępne i RL od ludzkich informacji zwrotnych, osiąga coraz mniejsze zyski; Przyszłość będzie należeć do agentów, którzy
— działać w sposób ciągły w świecie rzeczywistym lub symulowanym,
— generować i oznaczać własne dane treningowe poprzez interakcję
— optymalizować nagrody oparte na środowisku, a nie tylko na ludzkich preferencjach, oraz
— udoskonalają swoje modele i plany świata w oparciu o trwające całe życie strumienie doświadczeń.

43
Jak działa backprop w RL?
Zaletą backprop jest to, że aktualizuje KAŻDY pojedynczy parametr w proporcji do tego, jak bardzo jego zmiana wpływa na stratę. Jest to możliwe tylko wtedy, gdy wiesz, jak zmiana każdego parametru wpływa na funkcję straty.
Ale oczywiście w przypadku RL tak nie jest: środowisko (i nagroda, którą produkuje) to całkowicie oddzielny system. Nie masz jakiejś ciągłej różniczkowalnej funkcji, która mówi ci, jak bardzo zmiana każdego parametru wpływa na prawdopodobieństwo spadnięcia z klifu.
Rozwiązania są dość sprytne! Oto kilka sposobów na opracowanie różniczkowalnego proxy dla nagrody:
Metody gradientu polityki: Nie możesz różniczkować nagrody względem sieci. Ale możesz różniczkować prawdopodobieństwa różnych działań/tokenów sugerowanych przez sieć. Więc po prostu zrób stratę = (suma negatywnego logarytmu) prawdopodobieństw WAŻONYCH przez nagrodę. Strata jest wyższa, gdy nagroda jest niższa, więc model uczy się generować tokeny, które prowadzą do wyższej nagrody przy wyższym prawdopodobieństwie.
Q-learning: Ponownie, nagroda nie jest różniczkowalna względem sieci. Ale wiesz, co jest? Prognoza nagrody przez sieć. I możesz ją zaktualizować na podstawie tego, jak bardzo ta prognoza była błędna. Teraz, gdy możesz przewidzieć, jakie działania doprowadzą do jakiej nagrody, twoja polityka może po prostu polegać na podejmowaniu działań o najwyższej oczekiwanej nagrodzie.

383
Najlepsze
Ranking
Ulubione