Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Hur fungerar backprop med RL?
Fördelen med backprop är att den uppdaterar VARJE enskild parameter i proportion till hur mycket vickning den påverkar förlusten. Detta är bara möjligt om du vet hur en ändring av varje parameter påverkar förlustfunktionen.
Men med RL är detta naturligtvis inte fallet: miljön (och den belöning den producerar) är ett helt separat system. Du har inte någon kontinuerlig differentierbar funktion som talar om hur mycket vickning varje parameter påverkar sannolikheten för att falla från en klippa.
Lösningarna är ganska smarta! Här är några sätt att komma på en differentierbar proxy för belöning:
Principgradientmetoder: Du kan inte särskilja belöningen med avseende på nätverket. Men du kan differentiera sannolikheterna för olika åtgärder/tokens som föreslås av nätverket. Så det är bara att göra förlusten = (summan av den negativa loggen) sannolikheterna viktade med belöningen. Förlusten är högre när belöningen är lägre, så modellen lär sig att mata ut token, vilket leder till högre belöning med högre sannolikhet.
Q-learning: Återigen, belöning är inte differentierbar med avseende på nätverket. Men vet du vad som är det? Nätverkets förutsägelse av belöningen. Och du kan uppdatera den baserat på hur fel den förutsägelsen var. Nu när du kan förutsäga vilka åtgärder som kommer att leda till vilken belöning kan din policy helt enkelt vara att vidta de högsta förväntade belöningsåtgärderna.

295
Anteckningar från kapitel 1 av The Vital Question av den framtida gästen Nick Lane.
I introt listar han de motiverande frågorna:
Varför är bakterier så relativt enkla trots att de har funnits i 4 miljarder år? Varför finns det så mycket gemensam struktur mellan alla eukaryota celler trots den enorma morfologiska variationen mellan djur, växter, svampar och protister? Varför inträffade den endosymbios som ledde till eukaryoter bara en gång, och på det speciella sätt som den gjorde? Och varför drivs allt liv av protongradienter?
Nick säger att alla dessa frågor hänger ihop.
Kapitel 1:
Lane säger att det finns två olika filosofier om vilka flaskhalsar som finns i evolutionär utforskning: de nischer som görs tillgängliga av miljön, ELLER den interna struktur som är nödvändig för att utnyttja dessa nischer.
Lärobokens syn är att miljön begränsar utforskningen, medan strukturen är flexibel och kan anpassas när rätt miljö är på plats. Nick Lane tycker att det är tvärtom.
Det har skett 2 stora oxidationshändelser - den första (för 2,4 miljarder år sedan) banade väg för eukaryota celler. Den andra (för 600 miljoner år sedan) ledde till den kambriska explosionen, vilket resulterade i all den variation av djur och växter och annat komplext liv som vi ser. Så det verkar som att miljön är central. När du väl har fått upp en massa syre i luften och ut i haven kan du börja göra alla möjliga coola saker.
Men håll ut. Här är vad du kan förvänta dig att se om miljön var den viktigaste begränsningen: Med denna viktiga upplåsning av aerob andning utvecklas olika bakteriemärken oberoende av varandra mot större komplexitet för att fylla de nya nischer som öppnas upp (en bemästrar osmotrofi och förgrenar sig till svampar, en annan fotosyntes, en annan fagocytos, etc.). Men du ser inte detta.
Istället ser man att allt komplext liv uppstår från en enda gemensam eukaryot förfader (för 2,2 miljarder år sedan). Det finns ingen oberoende konvergent evolution mot denna typ av komplexitet (bakterier har haft 4 miljarder år på sig att utveckla denna typ av komplexitet och har förblivit anmärkningsvärt lika genom hela tiden).
Faktum är att när du väl får denna viktiga strukturella upplåsning, förökar sig eukaryota organismer i stor utsträckning och fyller nischer som sträcker sig från 100 fot långa blåvalar till 0,8 meter långa pikoplankton.
Vidare:
- Mängden gemensam struktur mellan alla eukaryota celler är anmärkningsvärd. De har nästan alla samma organeller och komponenter. Nick skriver:
"De flesta av oss kunde inte skilja mellan en växtcell, en njurcell och en protist från den lokala dammen ner i elektronmikroskopet."
- Det finns inga mellanliggande proto-eukaryoter, som har några, men inte alla, funktioner som är tillgängliga för eukaryota celler. Detta är galet med tanke på hur evolutionen fungerar. Vi har ett omfattande register över de inkrementella uppgraderingarna mellan fotomottagliga amöbor och däggdjursögon. Varför har vi inte proto-eukaryota celler som förökar sig via meios men som inte har kompartmenterade kärnor, eller har mitokondrier men inget cytoskelett?
Nick hävdar att det faktum att det inte finns någon sådan undergrupp av eukaryota egenskaper tyder på att det inte är strukturellt möjligt att överleva med bara en bråkdel av eukaryot utrustning - du behöver hela paketet på en gång.
Detta väckte naturligtvis frågan om hur hela paketet skulle utvecklas på en gång. Vilket jag tror att han kommer att ta upp i kommande kapitel.
Några frågor till Nick:
- Om hans åsikt är att strukturen var den största flaskhalsen, och att vi har haft eukaryoter i 2,2 miljarder år, varför hade vi då inte alla dessa djur och skit i 2 miljarder år? Varför uppstod de först för 600 miljoner år sedan (även kallad den kambriska explosionen)?
- Nick hävdar att eukaryota celler är en mycket viktigare upplåsning än flercellighet. Flercellighet har utvecklats oberoende av varandra dussintals gånger, men vi har bara bevis för en händelse som uppkomsten av den första eukaryota cellen. Om flercellighet utvecklats oberoende så många gånger (mellan svampar, slemsvampar, alger, etc etc), ser vi intressanta skillnader baserat på de situationer i vilka de utvecklades? Reglerar de differentieringen av celler, kroppens organisation på olika sätt och kommunikationen mellan vävnader på olika sätt? TODO kolla upp det senare.
En tangentiell tanke. Hela den här debatten om huruvida struktur eller miljö spelar större roll verkar analog med diskussionen i ML om huruvida arkitektur eller data spelar större roll. Och där verkar det som att data är ganska avgörande, men för att metalärande och allmängiltighet ska komma igång måste arkitekturen göra det möjligt för information att flöda på rätt sätt. Till exempel är kontextinlärning ett slags metainlärning som uppstår först när modellen har förmågan att ta hand om hundratals tidigare tokens, som blev hanterbara med transformatorer.


Dwarkesh Patel18 sep. 03:57
Skulle vara kul att göra en läseklubb för böcker/uppsatser jag går igenom för att förbereda mig inför intervjuer (eller bara intresserad av att läsa oavsett).
Bästa sättet att organisera? Twitter Live? Oenighet/Slack? Eller bara twittra tankar och låta folk diskutera i kommentarerna? Något annat?
472
Topp
Rankning
Favoriter