Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Como funciona o backprop com RL?
A virtude do backprop é que ele atualiza CADA parâmetro individual em proporção a quanto ele afeta a perda. Isso só é possível se você souber como a alteração de cada parâmetro afeta a função de perda.
Mas, claro, com RL isso não é o caso: o ambiente (e a recompensa que ele produz) é um sistema completamente separado. Você não tem uma função contínua e diferenciável que lhe diga quanto a alteração de cada parâmetro afeta a probabilidade de cair de um penhasco.
As soluções são bastante inteligentes! Aqui estão algumas maneiras de criar um proxy diferenciável para a recompensa:
Métodos de gradiente de política: Você não pode diferenciar a recompensa em relação à rede. Mas você pode diferenciar as probabilidades de diferentes ações/tokens sugeridos pela rede. Então, basta fazer a perda = a (soma do log negativo) das probabilidades PESADAS pela recompensa. A perda é maior quando a recompensa é menor, então o modelo aprende a gerar tokens que levam a uma recompensa maior com maior probabilidade.
Q-learning: Novamente, a recompensa não é diferenciável em relação à rede. Mas você sabe o que é? A previsão da recompensa pela rede. E você pode atualizá-la com base em quão errada essa previsão estava. Agora que você pode prever quais ações levarão a qual recompensa, sua política pode simplesmente ser tomar as ações de maior recompensa esperada.

47
Notas do Capítulo 1 de The Vital Question do futuro convidado Nick Lane.
Na introdução, ele lista as perguntas motivadoras:
Por que as bactérias são tão relativamente simples, apesar de estarem presentes há 4 bilhões de anos? Por que há tanta estrutura compartilhada entre todas as células eucarióticas, apesar da enorme variedade morfológica entre animais, plantas, fungos e protistas? Por que o evento de endossimbiose que levou aos eucariotos aconteceu apenas uma vez, e da maneira particular que aconteceu? E por que toda a vida é alimentada por gradientes de prótons?
Nick diz que todas essas perguntas estão conectadas.
Capítulo 1:
Lane diz que existem 2 filosofias diferentes sobre o que limita a exploração evolutiva: os nichos disponibilizados pelo ambiente, OU a estrutura interna necessária para explorar esses nichos.
A visão tradicional é que o ambiente restringe a exploração, enquanto a estrutura é flexível e pode se acomodar uma vez que o ambiente certo esteja em vigor. Nick Lane pensa que é o oposto.
Houve 2 grandes eventos de oxidação - o primeiro (há 2,4 bilhões de anos) abriu caminho para as células eucarióticas. O segundo (há 600 milhões de anos) levou à explosão cambriana, resultando em toda a variedade de animais, plantas e outras formas de vida complexa que vemos. Portanto, parece que o ambiente é central. Uma vez que você tem uma quantidade de oxigênio no ar e nos oceanos, pode começar a criar todo tipo de coisas legais.
Mas espere. Aqui está o que você esperaria ver se o ambiente fosse a principal limitação: Com essa chave desbloqueada da respiração aeróbica, diferentes marcas de bactérias evoluem independentemente em direção a uma maior complexidade para preencher os novos nichos abertos (uma domina a osmotrofia e se ramifica em fungos, outra em fotossíntese, outra em fagocitose, etc). No entanto, você não vê isso.
Em vez disso, você vê que toda a vida complexa emerge de um único ancestral eucariótico comum (há 2,2 bilhões de anos). Não há evolução convergente independente em direção a esse tipo de complexidade (as bactérias tiveram 4 bilhões de anos para evoluir esse tipo de complexidade e permaneceram notavelmente semelhantes durante todo esse tempo).
Na verdade, uma vez que você obtém essa chave estrutural, os organismos eucarióticos proliferam amplamente, preenchendo nichos que vão desde baleias azuis de 30 metros a picoplânctons de 0,8 metro.
Além disso:
- A quantidade de estrutura compartilhada entre todas as células eucarióticas é notável. Elas têm quase todos os mesmos organelas e componentes. Nick escreve:
"A maioria de nós não conseguiria distinguir entre uma célula vegetal, uma célula renal e um protista do lago local sob o microscópio eletrônico."
- Não há proto-eucariotos intermediários, que têm algumas, mas não todas, as funcionalidades disponíveis para as células eucarióticas. Isso é incrível, dado como a evolução funciona. Temos um extenso registro das atualizações incrementais entre amebas fotossensitivas e olhos de mamíferos. Por que não temos células proto-eucarióticas que se reproduzem via meiose, mas não têm núcleos compartimentalizados, ou têm mitocôndrias, mas não têm citoesqueleto?
Nick argumenta que o fato de não existir tal subconjunto de traços eucarióticos sugere que não é estruturalmente possível sobreviver com apenas uma fração do equipamento eucariótico - você precisa do pacote completo de uma só vez.
Obviamente, isso levantou a questão de como o pacote completo foi evoluído de uma só vez. O que eu acho que ele abordará em capítulos futuros.
Algumas perguntas para Nick:
- Se a visão dele é que a estrutura foi o principal gargalo, e temos eucariotos há 2,2 bilhões de anos, por que não tivemos todos esses animais e coisas por 2 bilhões de anos? Por que eles só surgiram há 600 milhões de anos (ou seja, a explosão cambriana)?
- Nick argumenta que as células eucarióticas são um desbloqueio muito mais significativo do que a multicelularidade. A multicelularidade evoluiu independentemente dezenas de vezes, mas só temos evidências de um evento como o surgimento da primeira célula eucariótica. Se a multicelularidade evoluiu independentemente tantas vezes (entre fungos, bolores mucilaginosos, algas, etc.), vemos diferenças interessantes com base nas situações em que evoluíram? Elas regulam a diferenciação das células, a organização do corpo de maneira diferente e a comunicação entre os tecidos de maneira diferente? TODO pesquisar mais tarde.
Um pensamento tangencial. Todo esse debate sobre se a estrutura ou o ambiente importa mais parece análogo à discussão em ML sobre se a arquitetura ou os dados importam mais. E lá parece que os dados são bastante cruciais, mas para que o meta-aprendizado e a generalidade comecem, a arquitetura precisa possibilitar que a informação flua da maneira certa. Por exemplo, o aprendizado em contexto é uma forma de meta-aprendizado que surge apenas uma vez que o modelo tem a capacidade de atender a centenas de tokens anteriores, o que se tornou viável com os transformers.


Dwarkesh Patel18/09, 03:57
Seria divertido fazer um clube de leitura para os livros/artigos que estou a ler para me preparar para entrevistas (ou apenas por interesse em ler, independentemente).
Qual é a melhor forma de organizar? Twitter Live? Discord/Slack? Ou apenas twittar pensamentos e ter pessoas a discutir nos comentários? Algo mais?
448
Seria divertido fazer um clube de leitura para os livros/artigos que estou a ler para me preparar para entrevistas (ou apenas por interesse em ler, independentemente).
Qual é a melhor forma de organizar? Twitter Live? Discord/Slack? Ou apenas twittar pensamentos e ter pessoas a discutir nos comentários? Algo mais?
58
Top
Classificação
Favoritos