Sklep DApp | Centrum Web3 dla wydarzeń i gier | OKX Wallet

Odkryj konkurs Web3, aby zdobyć więcej ekscytujących nagród

background background

discoveryBanners

Popularne tematy

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-3,17%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Dwarkesh Patel

Dwarkesh Patel

Dwarkesh Patel22 godz. temu

Właśnie zrobiłem to z kilkoma przyjaciółmi w rzeczywistości. Czuję, jakbym po raz pierwszy w życiu naprawdę przeczytał książkę. Zyskaliśmy znacznie lepsze zrozumienie, jak wszystkie motywujące pytania i dowody rzeczywiście pasują do tezy. Zadawanie sobie bardzo podstawowych pytań (a następnie próba odpowiedzi na nie) doprowadziło nas do uświadomienia sobie, jak niejasna była nasza mapa terenu. I jak bardzo mylna była nasza pierwotna interpretacja pozornie prostych pojęć.

Dwarkesh Patel

Dwarkesh Patel18 wrz, 03:57

Fajnie byłoby zorganizować klub czytelniczy dla książek/artykułów, które przeglądam, aby przygotować się do rozmów kwalifikacyjnych (lub po prostu z ciekawości, aby poczytać). Jaki jest najlepszy sposób na organizację? Twitter Live? Discord/Slack? A może po prostu tweetować myśli i pozwolić ludziom dyskutować w komentarzach? Coś innego?

91

Dwarkesh Patel

Dwarkesh Patel21 wrz, 00:12

Co powinienem zapytać @RichardSSutton? Ojciec uczenia przez wzmocnienie, tegoroczny laureat Nagrody Turinga; autor *The Bitter Lesson* oraz ostatnio *The Era of Experience*?

Deedy

Deedy19 kwi 2025

Rich Sutton właśnie opublikował swój najważniejszy esej na temat sztucznej inteligencji od czasu The Bitter Lesson: "Witamy w erze doświadczeń" Sutton i jego doradca Silver twierdzą, że "era danych ludzkich", zdominowana przez nadzorowane szkolenie wstępne i RL od ludzkich informacji zwrotnych, osiąga coraz mniejsze zyski; Przyszłość będzie należeć do agentów, którzy — działać w sposób ciągły w świecie rzeczywistym lub symulowanym, — generować i oznaczać własne dane treningowe poprzez interakcję — optymalizować nagrody oparte na środowisku, a nie tylko na ludzkich preferencjach, oraz — udoskonalają swoje modele i plany świata w oparciu o trwające całe życie strumienie doświadczeń.

47

Dwarkesh Patel

Dwarkesh Patel20 wrz, 03:23

Jak działa backprop w RL? Zaletą backprop jest to, że aktualizuje KAŻDY pojedynczy parametr w proporcji do tego, jak bardzo jego zmiana wpływa na stratę. Jest to możliwe tylko wtedy, gdy wiesz, jak zmiana każdego parametru wpływa na funkcję straty. Ale oczywiście w przypadku RL tak nie jest: środowisko (i nagroda, którą produkuje) to całkowicie oddzielny system. Nie masz jakiejś ciągłej różniczkowalnej funkcji, która mówi ci, jak bardzo zmiana każdego parametru wpływa na prawdopodobieństwo spadnięcia z klifu. Rozwiązania są dość sprytne! Oto kilka sposobów na opracowanie różniczkowalnego proxy dla nagrody: Metody gradientu polityki: Nie możesz różniczkować nagrody względem sieci. Ale możesz różniczkować prawdopodobieństwa różnych działań/tokenów sugerowanych przez sieć. Więc po prostu zrób stratę = (suma negatywnego logarytmu) prawdopodobieństw WAŻONYCH przez nagrodę. Strata jest wyższa, gdy nagroda jest niższa, więc model uczy się generować tokeny, które prowadzą do wyższej nagrody przy wyższym prawdopodobieństwie. Q-learning: Ponownie, nagroda nie jest różniczkowalna względem sieci. Ale wiesz, co jest? Prognoza nagrody przez sieć. I możesz ją zaktualizować na podstawie tego, jak bardzo ta prognoza była błędna. Teraz, gdy możesz przewidzieć, jakie działania doprowadzą do jakiej nagrody, twoja polityka może po prostu polegać na podejmowaniu działań o najwyższej oczekiwanej nagrodzie.

386

Najlepsze

Ranking

Ulubione

©2017 - 2025 WEB3.OKX.COM

Polski 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

Więcej o OKX Web3

Pobierz Akademia Informacje Kariera Kontakt Warunki świadczenia usługi Polityka prywatności X (dawniej Twitter)

Produkt

Panel portfela Zamiana (Swap)OKX NFT Zarabiaj Odkryj Buduj Eksplorator Bezpieczeństwo

Wsparcie

Centrum wsparcia Oficjalna weryfikacja Ogłoszenia Harmonogram opłat DEX Połącz z OKX Portfel Bitcoin Portfel Ethereum Portfel Solana