Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Hoogleraar, biomedisch wetenschapper, humaan immunoloog, veroudering en immunotherapie bij kanker. ALLES IN OP AI. Interesses: BioAI, robotica, Space Scifi Chess. Persoonlijke mening
Op dit moment is "loodgieterintelligentie" waardevoller dan PhD-niveau-intelligentie omdat AI-modellen de laatste op cognitief niveau hebben overtroffen, maar ver achterblijven op het gebied van fysieke intelligentie. Deze paradox zal echter niet lang duren; het is simpelweg de volgende grens om te veroveren.
156
Dit is een zeer interessant en, denk ik, belangrijk artikel. Langdurig denken is een cruciaal belangrijke eigenschap, naar mijn mening. Stel je een AI-model voor dat een miljoen stappen vooruit kan denken!
✅GPT-5 Denken is ver vooruit op alle andere modellen die we hebben getest. Het kan 1000+ stap taken in één keer uitvoeren.
✅Op de tweede plaats met 432 stappen staat Claude 4 Sonnet... en dan Grok-4 met 384
✅Gemini 2.5 Pro en DeepSeek R1 blijven ver achter, met slechts 120.

Shashwat Goel12 sep, 23:42
Vers van de pers: De Illusie van Diminishing Returns: Het Meten van Langdurige Uitvoering in LLM's.
Zijn kleine modellen de toekomst van agentische AI? Is het opschalen van LLM-rekenkracht de kosten niet waard vanwege afnemende rendementen? Zijn autoregressieve LLM's gedoemd, en is denken een illusie?
De berenargumenten voor het opschalen van LLM's zijn allemaal verbonden met één enkele capaciteit: Langdurige Uitvoering. Dat is echter precies waarom je optimistisch zou moeten zijn over het opschalen van modelgrootte en test-tijd rekenkracht!
> Ten eerste, herinner je je de METR-plot? Het kan worden verklaard door het model van @ylecun over samengestelde fouten
> de horizonlengte van een model groeit super-exponentieel (@DaveShapi) in nauwkeurigheid per enkele stap.
> Upshot 1: Laat je niet misleiden door de vertraagde vooruitgang op typische korte-taak benchmarks
> dat is genoeg voor exponentiële groei in horizonlengte.
Maar we gaan verder dan het model van @ylecun, we testen LLM's empirisch...
> Gewoon uitvoering is ook moeilijk voor LLM's, zelfs wanneer je ze het benodigde plan en kennis biedt.
> We moeten uitvoeringsfouten niet verkeerd interpreteren als een onvermogen om te "redeneren".
> Zelfs wanneer een klein model 100% nauwkeurigheid per enkele stap heeft, kunnen grotere modellen veel meer stappen uitvoeren boven een succespercentage drempel.
> Opgevallen hoe je agent slechter presteert naarmate de taak langer wordt? Het zijn niet alleen de beperkingen van lange contexten..
> We observeren: Het Zelf-Conditioneringseffect!
> Wanneer modellen fouten zien die ze eerder in hun geschiedenis hebben gemaakt, worden ze waarschijnlijker om in toekomstige stappen fouten te maken.
> Het vergroten van de modelgrootte verergert dit probleem - een zeldzaam geval van inverse schaalvergroting!
Dus wat betreft denken...?
> Denken is geen illusie. Het is de motor voor uitvoering!
> Waar zelfs DeepSeek v3, Kimi K2 niet in staat zijn om zelfs maar 5 stappen latent uit te voeren wanneer ze worden gevraagd om uit te voeren zonder CoT...
> Met CoT kunnen ze 10x meer doen.
Dus wat betreft de grens?
> GPT-5 Denken is ver vooruit op alle andere modellen die we hebben getest. Het kan 1000+ stap taken in één keer uitvoeren.
> Op de tweede plaats met 432 stappen is Claude 4 Sonnet... en dan Grok-4 met 384
> Gemini 2.5 Pro en DeepSeek R1 blijven ver achter, met slechts 120.
> Is dat waarom GPT-5 de codenaam Horizon had? 🤔
> Open-source heeft een lange ;) weg te gaan!
> Laten we het samen laten groeien! We publiceren alle code en data.
We hebben een lange, diepe duik gemaakt, en presenteren je de beste inzichten met geweldige plots hieronder 👇

188
Boven
Positie
Favorieten