Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Professeur, scientifique biomédical, immunologiste humain, immunothérapie du vieillissement et du cancer. TOUT MISENT SUR L’IA. Intérêts : BioIA, robotique, Space Scifi Chess. Avis personnel
Pour le moment, l'"intelligence de plombier" est plus précieuse que l'intelligence de niveau doctorat, car les modèles d'IA ont dépassé ce dernier au niveau cognitif mais sont encore loin derrière en matière d'intelligence physique. Cependant, ce paradoxe ne durera pas longtemps ; c'est simplement la prochaine frontière à conquérir.
158
C'est un document très intéressant et, je crois, important. La pensée à long terme est, à mon avis, une caractéristique d'une importance critique. Imaginez simplement un modèle d'IA capable de penser un million de pas en avant !
✅La pensée de GPT-5 est bien en avance sur tous les autres modèles que nous avons testés. Il peut exécuter des tâches de plus de 1000 étapes en une seule fois.
✅En deuxième position avec 432 étapes se trouve Claude 4 Sonnet... puis Grok-4 avec 384
✅Gemini 2.5 Pro et DeepSeek R1 sont loin derrière, avec seulement 120.

Shashwat Goel12 sept., 23:42
Document tout frais : L'illusion des rendements décroissants : Mesurer l'exécution à long terme dans les LLM.
Les petits modèles sont-ils l'avenir de l'IA agentique ? L'augmentation des ressources de calcul des LLM vaut-elle le coût en raison des rendements décroissants ? Les LLM autoregressifs sont-ils condamnés, et la pensée une illusion ?
Les arguments pessimistes pour l'augmentation des LLM sont tous liés à une seule capacité : l'exécution à long terme. Cependant, c'est exactement pourquoi vous devriez être optimiste quant à l'augmentation de la taille des modèles et des ressources de calcul en phase de test !
> D'abord, vous vous souvenez du graphique METR ? Il pourrait être expliqué par le modèle d'erreurs cumulées de @ylecun
> la longueur d'horizon d'un modèle croît de manière super-exponentielle (@DaveShapi) en précision d'une seule étape.
> Résultat 1 : Ne vous laissez pas tromper par le ralentissement des progrès sur les benchmarks de tâches courtes typiques
> cela suffit pour une croissance exponentielle de la longueur d'horizon.
Mais nous allons au-delà du modèle de @ylecun, en testant les LLM empiriquement...
> L'exécution seule est également difficile pour les LLM, même lorsque vous leur fournissez le plan et les connaissances nécessaires.
> Nous ne devrions pas interpréter les échecs d'exécution comme une incapacité à "raisonner".
> Même lorsqu'un petit modèle a une précision de 100 % en une seule étape, des modèles plus grands peuvent exécuter beaucoup plus de tours au-dessus d'un seuil de taux de réussite.
> Avez-vous remarqué comment votre agent performe moins bien à mesure que la tâche devient plus longue ? Ce n'est pas seulement des limitations de contexte long..
> Nous observons : L'effet d'auto-conditionnement !
> Lorsque les modèles voient des erreurs qu'ils ont commises plus tôt dans leur histoire, ils deviennent plus susceptibles de faire des erreurs dans les tours futurs.
> L'augmentation de la taille du modèle aggrave ce problème - un cas rare de mise à l'échelle inverse !
Alors qu'en est-il de la pensée... ?
> La pensée n'est pas une illusion. C'est le moteur de l'exécution !
> Où même DeepSeek v3, Kimi K2 échouent à exécuter même 5 tours latents lorsqu'on leur demande d'exécuter sans CoT...
> Avec CoT, ils peuvent faire 10 fois plus.
Alors qu'en est-il de la frontière ?
> La pensée de GPT-5 est de loin supérieure à tous les autres modèles que nous avons testés. Il peut exécuter des tâches de plus de 1000 étapes d'un coup.
> En seconde position avec 432 étapes se trouve Claude 4 Sonnet... puis Grok-4 à 384
> Gemini 2.5 Pro et DeepSeek R1 sont loin derrière, avec seulement 120.
> Est-ce pour cela que GPT-5 a été codé nommé Horizon ? 🤔
> L'open-source a un long ;) chemin à parcourir !
> Grandissons-le ensemble ! Nous publions tout le code et les données.
Nous avons fait une longue plongée approfondie et vous présentons les meilleures conclusions avec d'incroyables graphiques ci-dessous 👇

190
Meilleurs
Classement
Favoris