Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Professor, biomedicinsk analytiker, human immunolog, åldrande och cancerimmunterapi. ALL IN PÅ AI. Intressen: BioAI, robotik, Space Scifi Chess. Personlig åsikt
Detta är ett mycket intressant och, enligt min mening, viktigt dokument. Att tänka i långa sammanhang är en mycket viktig egenskap, enligt min mening. Föreställ dig en AI-modell som kan tänka en miljon steg framåt!
✅GPT-5 Thinking ligger långt före alla andra modeller vi testat. Den kan utföra 1000+ steguppgifter på en gång.
✅På andra plats med 432 steg är Claude 4 Sonnet... och sedan Grok-4 på 384
✅Gemini 2.5 Pro och DeepSeek R1 ligger långt efter, på bara 120.

Shashwat Goel12 sep. 23:42
Färskt papper från pressen: Illusionen av minskande avkastning: Mätning av Long Horizon Execution i LLM.
Är små modeller framtiden för agentisk AI? Är skalning av LLM-beräkning inte värt kostnaden på grund av minskande avkastning? Är autoregressiva LLM:er dömda och tänker en illusion?
Björnfallen för LLM-skalning är alla anslutna till en enda kapacitet: Long Horizon Execution. Men det är just därför du bör vara hausse på skalning, modellstorlek och beräkning vid testtid!
> Kommer du först ihåg METR-handlingen? Det kan förklaras av @ylecun s modell för sammansättningsfel
> horisontlängden för en modell växer superexponentiellt (@DaveShapi) med noggrannhet i ett steg.
> Resultat 1: Låt dig inte luras av att sakta ner framstegen på typiska riktmärken för korta uppgifter
> det räcker för exponentiell tillväxt i horisontlängd.
Men vi går längre än @ylecun:s modell och testar LLM:er empiriskt...
> Rättvist utförande är också svårt för LLM:er, även när du ger dem den nödvändiga planen och kunskapen.
> Vi bör inte misstolka exekveringsmisslyckanden som en oförmåga att "resonera".
> Även när en liten modell har 100 % noggrannhet i ett steg kan större modeller utföra mycket fler varv över tröskelvärdet för framgångsfrekvens.
> Har du märkt att din agent presterar sämre när uppgiften blir längre? Det är inte bara begränsningar i långa sammanhang.
> Vi observerar: Den självbetingande effekten!
> När modeller ser fel som de har gjort tidigare i sin historik blir de mer benägna att göra fel i framtida svängar.
> Ökad modellstorlek förvärrar det här problemet – ett sällsynt fall av omvänd skalning!
Så vad sägs om att tänka...?
> Att tänka är inte en illusion. Det är motorn för utförande!
> Där även DeepSeek v3, Kimi K2 misslyckas med att utföra ens 5 varv latent när de ombeds att köra utan Cot ...
> Med CoT kan de göra 10 gånger mer.
Hur är det då med gränsen?
> GPT-5 Thinking ligger långt före alla andra modeller vi testat. Den kan utföra 1000+ steguppgifter på en gång.
> På andra plats med 432 steg är Claude 4 Sonnet... och sedan Grok-4 på 384
> Gemini 2.5 Pro och DeepSeek R1 ligger långt efter, bara 120.
> Är det därför GPT-5 fick kodnamnet Horizon? 🤔
> Öppen källkod har en lång ;) Bra jobbat!
> Låt oss odla det tillsammans! Vi släpper all kod och data.
Vi gjorde en lång djupdykning och presenterar de bästa takeaways med fantastiska tomter nedan 👇

206
Topp
Rankning
Favoriter