Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Como o backprop funciona com RL?
A virtude do backprop é que ele atualiza CADA parâmetro individual na proporção de quanto ele afeta a perda. Isso só é possível se você souber como a alteração de cada parâmetro afeta a função de perda.
Mas é claro que com RL esse não é o caso: o ambiente (e a recompensa que ele produz) é um sistema totalmente separado. Você não tem alguma função diferenciável contínua que lhe diga o quanto cada parâmetro afeta a probabilidade de cair de um penhasco.
As soluções são bastante inteligentes! Aqui estão algumas maneiras de criar um proxy diferenciável para recompensa:
Métodos de gradiente de política: você não pode diferenciar a recompensa em relação à rede. Mas você pode diferenciar as probabilidades de diferentes ações/tokens sugeridos pela rede. Então, basta fazer a perda = as probabilidades (soma do log negativo) PONDERADAS pela recompensa. A perda é maior quando a recompensa é menor, então o modelo aprende a gerar tokens que levam a uma recompensa maior com maior probabilidade.
Q-learning: Novamente, a recompensa não é diferenciável em relação à rede. Mas você sabe o que é? A previsão da rede sobre a recompensa. E você pode atualizá-lo com base em quão errada foi essa previsão. Agora que você pode prever quais ações levarão a qual recompensa, sua política pode ser simplesmente tomar as ações de recompensa mais altas esperadas.

304
Notas do Capítulo 1 de A Questão Vital pelo futuro convidado Nick Lane.
Na introdução, ele lista as perguntas motivadoras:
Por que as bactérias são tão relativamente simples, apesar de existirem há 4 bilhões de anos? Por que existe tanta estrutura compartilhada entre todas as células eucarióticas, apesar da enorme variedade morfológica entre animais, plantas, fungos e protistas? Por que o evento de endossimbiose que levou aos eucariotos aconteceu apenas uma vez, e da maneira particular que aconteceu? E por que toda a vida é alimentada por gradientes de prótons?
Nick diz que todas essas questões estão conectadas.
Capítulo 1:
Lane diz que existem 2 filosofias diferentes sobre o que estrangula a exploração evolutiva: os nichos disponibilizados pelo ambiente OU a estrutura interna necessária para explorar esses nichos.
A visão do livro didático é que o ambiente restringe a exploração, enquanto a estrutura é flexível e pode acomodar uma vez que o ambiente certo esteja no lugar. Nick Lane acha que é o oposto.
Houve 2 grandes eventos de oxidação - o primeiro (2,4 bilhões de anos atrás) abriu o caminho para as células eucarióticas. O segundo (600 milhões de anos atrás) levou à explosão cambriana, resultando em toda a variedade de animais e plantas e outras formas de vida complexas que vemos. Portanto, parece que o ambiente é central. Depois de colocar um monte de oxigênio no ar e nos oceanos, você pode começar a fazer todo tipo de merda legal.
Mas espere. Aqui está o que você esperaria ver se o ambiente fosse a principal restrição: Com esse desbloqueio chave da respiração aeróbica, diferentes marcas de bactérias evoluem independentemente para uma maior complexidade para preencher os novos nichos abertos (um domina a osmotrofia e se ramifica em fungos, outro fotossíntese, outro fagocitose, etc). No entanto, você não vê isso.
Em vez disso, você vê que toda a vida complexa emerge de um único ancestral eucariótico comum (2,2 bilhões de anos atrás). Não há evolução convergente independente para esse tipo de complexidade (as bactérias tiveram 4 bilhões de anos para desenvolver esse tipo de complexidade e permaneceram notavelmente semelhantes durante todo o tempo).
Na verdade, uma vez que você obtém esse desbloqueio estrutural chave, os organismos eucarióticos proliferam amplamente, preenchendo nichos que variam de baleias azuis de 100 pés de comprimento a picoplâncton de 0,8 metro de comprimento.
Além disso:
- A quantidade de estrutura compartilhada entre todas as células eucarióticas é notável. Eles têm quase todas as mesmas organelas e componentes. Nick escreve:
"A maioria de nós não conseguia distinguir entre uma célula vegetal, uma célula renal e um protista do lago local no microscópio eletrônico."
- Não há proto-eucariotos intermediários, que têm algumas, mas não todas, as funcionalidades disponíveis para as células eucarióticas. Isso é selvagem, dada a forma como a evolução funciona. Temos um extenso registro das atualizações incrementais entre amebas fotorreceptoras e olhos de mamíferos. Por que não temos células proto-eucarióticas que se reproduzem por meiose, mas não têm núcleos compartimentados, ou têm mitocôndrias, mas não citoesqueleto?
Nick argumenta que o fato de não existir tal subconjunto de características eucarióticas sugere que não é estruturalmente possível sobreviver com apenas uma fração do equipamento eucariótico - você precisa de todo o pacote de uma só vez.
Obviamente, isso levantou a questão de como todo o pacote foi desenvolvido de uma só vez. Que eu acho que ele abordará em capítulos futuros.
Algumas perguntas para Nick:
- Se sua opinião é que a estrutura era o principal gargalo, e tivemos eucariotos por 2,2 bilhões de anos, então por que não tivemos todos esses animais e merda por 2 bilhões de anos? Por que eles surgiram apenas 600 milhões de anos atrás (também conhecido como explosão cambriana)?
- Nick argumenta que as células eucarióticas são um desbloqueio muito mais significativo do que a multicelularidade. A multicelularidade evoluiu independentemente dezenas de vezes, mas só temos evidências de um evento como o surgimento da primeira célula eucariótica. Se a multicelularidade evoluiu independentemente tantas vezes (entre fungos, fungos, algas, etc etc), vemos diferenças interessantes com base nas situações em que evoluíram? Eles regulam a diferenciação das células, a organização do corpo de maneira diferente e a comunicação entre os tecidos de maneira diferente? TODO procure mais tarde.
Um pensamento tangencial. Todo esse debate sobre se a estrutura ou o ambiente é mais importante parece análogo à discussão em ML sobre se a arquitetura ou os dados são mais importantes. E aí parece que os dados são bastante cruciais, mas para que o meta-aprendizado e a generalidade comecem, a arquitetura deve possibilitar que as informações fluam da maneira certa. Por exemplo, o aprendizado em contexto é um tipo de meta-aprendizado que surge apenas quando o modelo tem a capacidade de atender a centenas de tokens anteriores, que se tornaram tratáveis com transformadores.


Dwarkesh Patel18 de set., 03:57
Seria divertido fazer um clube de leitura para livros / artigos que estou passando para me preparar para entrevistas (ou apenas interessado em ler independentemente).
Melhor maneira de organizar? Twitter ao vivo? Discórdia/Slack? Ou apenas twittar pensamentos e fazer as pessoas discutirem nos comentários? Algo mais?
475
Seria divertido fazer um clube de leitura para livros / artigos que estou passando para me preparar para entrevistas (ou apenas interessado em ler independentemente).
Melhor maneira de organizar? Twitter ao vivo? Discórdia/Slack? Ou apenas twittar pensamentos e fazer as pessoas discutirem nos comentários? Algo mais?
79
Melhores
Classificação
Favoritos