Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Gjorde nettopp dette med et par venner irl.
Føles som om jeg har lest en bok ordentlig for første gang i mitt liv.
Vi fikk en mye bedre følelse av hvordan alle de motiverende spørsmålene og bevisene faktisk passet sammen i avhandlingen.
Å stille hverandre helt grunnleggende spørsmål (og deretter prøve å svare på dem) får oss til å innse hvor grumsete kartet vårt over terrenget egentlig var. Og hvor forvirret vår opprinnelige tolkning av tilsynelatende enkle konsepter var.

Dwarkesh Patel18. sep., 03:57
Ville vært morsomt å lage en leseklubb for bøker/artikler jeg går gjennom for å forberede meg til intervjuer (eller bare interessert i å lese uansett).
Beste måten å organisere på? Twitter Live? Discord/Slack? Eller bare tvitre tanker og få folk til å diskutere i kommentarer? Noe annet?
63
Hva skal jeg spørre @RichardSSutton?
Far til forsterkende læring, årets Turing Award-vinner; forfatter av *The Bitter Lesson* og mer nylig, *The Era of Experience*?

Deedy19. apr. 2025
Rich Sutton just published his most important essay on AI since The Bitter Lesson: "Welcome to the Era of Experience"
Sutton and his advisee Silver argue that the “era of human data,” dominated by supervised pre‑training and RL‑from‑human‑feedback, has hit diminishing returns; the future will belong to agents that
— act continuously in real or simulated worlds,
— generate and label their own training data through interaction
— optimise rewards grounded in the environment rather than in human preference alone, and
— refine their world‑models and plans over lifelong streams of experience.

20
Hvordan fungerer backprop med RL?
Fordelen med backprop er at den oppdaterer HVER enkelt parameter i forhold til hvor mye vrikking den påvirker tapet. Dette er bare mulig hvis du vet hvordan endring av hver parameter påvirker tapsfunksjonen.
Men selvfølgelig er dette ikke tilfelle med RL: miljøet (og belønningen det produserer) er et helt eget system. Du har ikke noen kontinuerlig differensierbar funksjon som forteller deg hvor mye vrikking hver parameter påvirker sannsynligheten for å falle utfor en klippe.
Løsningene er ganske smarte! Her er noen måter å komme opp med en differensierbar proxy for belønning:
Metoder for graduering av retningslinjer: Du kan ikke skille belønningen i forhold til nettverket. Men du kan skille sannsynlighetene for forskjellige handlinger/tokens foreslått av nettverket. Så bare gjør tapet = (summen av negativ log) sannsynligheten VEKTET av belønningen. Tapet er høyere når belønningen er lavere, så modellen lærer å sende ut tokens som fører til høyere belønning med høyere sannsynlighet.
Q-læring: Igjen, belønning er ikke differensierbar med hensyn til nettverket. Men vet du hva som er det? Nettverkets prediksjon av belønningen. Og du kan oppdatere den basert på hvor feil den spådommen var. Nå som du kan forutsi hvilke handlinger som vil føre til hvilken belønning, kan policyen din ganske enkelt bare være å ta de høyeste forventede belønningshandlingene.

367
Topp
Rangering
Favoritter