Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Comment fonctionne le backprop avec le RL ?
La vertu du backprop est qu'il met à jour CHAQUE paramètre individuel en proportion de l'impact qu'il a sur la perte. Cela n'est possible que si vous savez comment le changement de chaque paramètre affecte la fonction de perte.
Mais bien sûr, avec le RL, ce n'est pas le cas : l'environnement (et la récompense qu'il produit) est un système complètement séparé. Vous n'avez pas de fonction continue et différentiable qui vous indique combien le changement de chaque paramètre affecte la probabilité de tomber d'une falaise.
Les solutions sont assez astucieuses ! Voici quelques façons de trouver un proxy différentiable pour la récompense :
Méthodes de gradient de politique : Vous ne pouvez pas différencier la récompense par rapport au réseau. Mais vous pouvez différencier les probabilités des différentes actions/tokens suggérés par le réseau. Donc, il suffit de faire en sorte que la perte = la (somme des logarithmes négatifs) des probabilités PONDÉRÉES par la récompense. La perte est plus élevée lorsque la récompense est plus basse, donc le modèle apprend à produire des tokens qui mènent à une récompense plus élevée avec une probabilité plus élevée.
Q-learning : Encore une fois, la récompense n'est pas différentiable par rapport au réseau. Mais savez-vous ce qui l'est ? La prédiction de la récompense par le réseau. Et vous pouvez la mettre à jour en fonction de l'erreur de cette prédiction. Maintenant que vous pouvez prédire quelles actions mèneront à quelle récompense, votre politique peut simplement consister à prendre les actions avec la plus haute récompense attendue.

335
Notes du Chapitre 1 de The Vital Question par le futur invité Nick Lane.
Dans l'introduction, il énumère les questions motivantes :
Pourquoi les bactéries sont-elles si relativement simples malgré 4 milliards d'années d'existence ? Pourquoi y a-t-il tant de structures partagées entre toutes les cellules eucaryotes malgré l'énorme variété morphologique entre les animaux, les plantes, les champignons et les protistes ? Pourquoi l'événement d'endosymbiose qui a conduit aux eucaryotes s'est-il produit une seule fois, et de la manière particulière dont il l'a fait ? Et pourquoi toute vie est-elle alimentée par des gradients de protons ?
Nick dit que toutes ces questions sont connectées.
Chapitre 1 :
Lane dit qu'il y a deux philosophies différentes sur ce qui limite l'exploration évolutive : les niches rendues disponibles par l'environnement, OU la structure interne nécessaire pour exploiter ces niches.
La vue classique est que l'environnement contraint l'exploration, tandis que la structure est flexible et peut s'adapter une fois que le bon environnement est en place. Nick Lane pense que c'est l'inverse.
Il y a eu deux grands événements d'oxydation - le premier (il y a 2,4 milliards d'années) a ouvert la voie aux cellules eucaryotes. Le second (il y a 600 millions d'années) a conduit à l'explosion cambrienne, résultant en toute la variété d'animaux, de plantes et d'autres formes de vie complexe que nous voyons. Il semble donc que l'environnement soit central. Une fois que vous avez une quantité d'oxygène dans l'air et dans les océans, vous pouvez commencer à créer toutes sortes de choses intéressantes.
Mais attendez. Voici ce que vous vous attendriez à voir si l'environnement était la contrainte clé : Avec cette clé qui déverrouille la respiration aérobie, différentes souches de bactéries évoluent indépendamment vers une plus grande complexité pour remplir les nouvelles niches ouvertes (l'une maîtrise l'osmotrophie et se ramifie en champignons, une autre en photosynthèse, une autre en phagocytose, etc.). Cependant, vous ne voyez pas cela.
Au lieu de cela, vous voyez que toute vie complexe émerge d'un seul ancêtre eucaryote commun (il y a 2,2 milliards d'années). Il n'y a pas d'évolution convergente indépendante vers ce type de complexité (les bactéries ont eu 4 milliards d'années pour évoluer vers ce type de complexité, et sont restées remarquablement similaires tout au long de cette période).
En fait, une fois que vous obtenez ce déverrouillage structurel clé, les organismes eucaryotes prolifèrent largement, remplissant des niches allant des baleines bleues de 30 mètres de long aux picoplanctons de 0,8 mètre de long.
De plus :
- La quantité de structure partagée entre toutes les cellules eucaryotes est remarquable. Elles ont presque tous les mêmes organites et composants. Nick écrit :
"La plupart d'entre nous ne pourraient pas distinguer entre une cellule végétale, une cellule rénale et un protiste du bassin local au microscope électronique."
- Il n'y a pas de proto-eucaryotes intermédiaires, qui ont certaines, mais pas toutes, des fonctionnalités disponibles pour les cellules eucaryotes. C'est incroyable étant donné comment l'évolution fonctionne. Nous avons un vaste enregistrement des mises à niveau incrémentales entre les amibes photoréceptives et les yeux des mammifères. Pourquoi n'avons-nous pas de cellules proto-eucaryotes qui se reproduisent par méiose mais n'ont pas de noyaux compartimentés, ou ont des mitochondries mais pas de cytosquelette ?
Nick soutient le fait qu'aucun sous-ensemble de traits eucaryotes n'existe suggère qu'il n'est pas structurellement possible de survivre avec seulement une fraction de l'équipement eucaryote - vous avez besoin de l'ensemble du paquet en même temps.
Évidemment, cela a soulevé la question de la manière dont l'ensemble du paquet a été évolué en même temps. Ce que je pense qu'il abordera dans les chapitres futurs.
Quelques questions pour Nick :
- Si son point de vue est que la structure était le principal goulot d'étranglement, et que nous avons eu des eucaryotes pendant 2,2 milliards d'années, alors pourquoi n'avons-nous pas eu tous ces animaux et autres pendant 2 milliards d'années ? Pourquoi n'ont-ils émergé que 600 millions d'années auparavant (c'est-à-dire l'explosion cambrienne) ?
- Nick soutient que les cellules eucaryotes sont un déverrouillage beaucoup plus significatif que la multicellularité. La multicellularité a évolué indépendamment des dizaines de fois, mais nous n'avons qu'une seule preuve d'un événement comme l'émergence de la première cellule eucaryote. Si la multicellularité a évolué indépendamment tant de fois (entre les champignons, les moisissures visqueuses, les algues, etc.), voyons-nous des différences intéressantes en fonction des situations dans lesquelles elles ont évolué ? Régulent-elles la différenciation des cellules, l'organisation du corps différemment, et la communication entre les tissus différemment ? À faire plus tard.
Une pensée tangentielle. Ce débat entier sur la question de savoir si la structure ou l'environnement compte le plus semble analogue à la discussion en ML sur la question de savoir si l'architecture ou les données comptent le plus. Et là, il semble que les données soient assez cruciales, mais pour que l'apprentissage méta et la généralité commencent, l'architecture doit permettre à l'information de circuler de la bonne manière. Par exemple, l'apprentissage contextuel est une sorte d'apprentissage méta qui n'émerge que lorsque le modèle a la capacité d'attendre des centaines de jetons précédents, ce qui est devenu réalisable avec les transformateurs.


Dwarkesh Patel18 sept., 03:57
Ce serait amusant de créer un club de lecture pour les livres/articles que je parcours pour me préparer aux entretiens (ou simplement par intérêt pour la lecture, peu importe).
Quelle est la meilleure façon d'organiser cela ? Twitter Live ? Discord/Slack ? Ou juste tweeter mes pensées et laisser les gens discuter dans les commentaires ? Autre chose ?
481
Ce serait amusant de créer un club de lecture pour les livres/articles que je parcours pour me préparer aux entretiens (ou simplement par intérêt pour la lecture, peu importe).
Quelle est la meilleure façon d'organiser cela ? Twitter Live ? Discord/Slack ? Ou juste tweeter mes pensées et laisser les gens discuter dans les commentaires ? Autre chose ?
85
Meilleurs
Classement
Favoris