Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Professori, biolääketieteen tutkija, ihmisimmunologi, ikääntymisen ja syövän immunoterapia. KAIKKI TEKOÄLYSSÄ. Kiinnostuksen kohteet: BioAI, robotiikka, avaruusscif-shakki. Henkilökohtainen mielipide
Tällä hetkellä "putkimiehen älykkyys" on arvokkaampaa kuin tohtoritason älykkyys, koska tekoälymallit ovat ohittaneet jälkimmäisen kognitiivisella tasolla, mutta jäävät paljon jälkeen fyysisessä älykkyydessä. Tämä paradoksi ei kuitenkaan kestä kauan; se on yksinkertaisesti seuraava valloitettava raja.
149
Tämä on erittäin mielenkiintoinen ja mielestäni tärkeä asiakirja. Pitkän kontekstin ajattelu on mielestäni kriittisen tärkeä ominaisuus. Kuvittele tekoälymalli, joka pystyy ajattelemaan miljoona askelta eteenpäin!
✅GPT-5 Thinking on paljon edellä kaikkia muita testaamiamme malleja. Se voi suorittaa 1000+ askeltehtävää yhdellä kertaa.
✅Toisella sijalla 432 askeleella on Claude 4 Sonnet... ja sitten Grok-4 384:ssä
✅Gemini 2.5 Pro ja DeepSeek R1 ovat kaukana jäljessä, vain 120.

Shashwat Goel12.9. klo 23.42
Tuoretta paperia lehdistöstä: Illuusio vähenevästä tuotosta: Pitkän horisontin toteutuksen mittaaminen LLM:issä.
Ovatko pienet mallit agentisen tekoälyn tulevaisuus? Eikö LLM-laskennan skaalaaminen ole kustannusten arvoista pienenevän tuoton vuoksi? Ovatko autoregressiiviset LLM:t tuhoon tuomittuja ja ajattelu illuusio?
LLM-skaalauksen karhutapaukset liittyvät kaikki yhteen ominaisuuteen: Long Horizon Execution -toimintoon. Juuri siksi sinun pitäisi kuitenkin olla positiivinen mallin koon skaalaamisen ja testiaikaisen laskennan suhteen!
> Ensinnäkin, muistatko METR-käyrän? Se saattaa selittyä @ylecun:n yhdistelmävirheiden mallilla
> mallin horisontin pituus kasvaa supereksponentiaalisesti (@DaveShapi) yksivaiheisella tarkkuudella.
> Lopputulos 1: Älä anna hämätä, jos hidastat edistymistä tyypillisissä lyhyiden tehtävien vertailuarvoissa
> se riittää horisontin pituuden eksponentiaaliseen kasvuun.
Mutta menemme @ylecun mallia pidemmälle ja testaamme LLM:iä empiirisesti...
> Oikeudenmukainen toteutus on myös vaikeaa LLM-tutkinnon suorittajille, vaikka tarjoaisit heille tarvittavan suunnitelman ja tiedon.
> Meidän ei pitäisi tulkita väärin suoritusvirheitä kyvyttömyydeksi "päätellä".
> Vaikka pienellä mallilla olisi 100 %:n yksivaiheinen tarkkuus, suuremmat mallit voivat suorittaa paljon enemmän kierroksia onnistumisprosentin kynnyksen yläpuolella.
> Huomasitko, kuinka agenttisi suoriutuu huonommin, kun tehtävä pitenee? Se ei ole vain pitkän kontekstin rajoituksia.
> Huomaamme: Itseehdollistava vaikutus!
> Kun mallit näkevät aiemmin historiassaan tekemiään virheitä, he tekevät todennäköisemmin virheitä tulevissa käännöksissä.
> Mallin koon kasvattaminen pahentaa tätä ongelmaa - harvinainen käänteinen skaalaus!
Entä sitten ajattelu...?
> Ajattelu ei ole illuusio. Se on toteutuksen moottori!
> Siinä missä edes DeepSeek v3, Kimi K2 ei suorita edes 5 kierrosta piilevästi, kun niitä pyydetään suorittamaan ilman CoT:tä...
> CoT:n avulla he voivat tehdä 10 kertaa enemmän.
Entä sitten raja?
> GPT-5 Thinking on paljon edellä kaikkia muita testaamiamme malleja. Se voi suorittaa 1000+ askeltehtävää yhdellä kertaa.
> Toisella sijalla 432 askeleella on Claude 4 Sonnet... ja sitten Grok-4 384:ssä
> Gemini 2.5 Pro ja DeepSeek R1 ovat kaukana jäljessä, vain 120.
> Tästä syystä GPT-5 sai koodinimen Horizon? 🤔
> Avoimella lähdekoodilla on pitkä ;) Sillä lailla!
> Kasvatetaan sitä yhdessä! Julkaisemme kaiken koodin ja datan.
Teimme pitkän syväsukelluksen ja esittelemme sinulle parhaat poimintoja mahtavilla juonilla alla 👇

180
Johtavat
Rankkaus
Suosikit