Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Profesor, naukowiec biomedyczny, immunolog człowieka, immunoterapia starzenia się i nowotworów. POSTAW NA SZTUCZNĄ INTELIGENCJĘ. Zainteresowania: BioAI, robotyka, kosmiczne szachy scifi. Opinia osobista
W tej chwili „inteligencja hydraulika” jest bardziej wartościowa niż inteligencja na poziomie doktoratu, ponieważ modele AI przewyższają tę drugą na poziomie poznawczym, ale znacznie ustępują w zakresie inteligencji fizycznej. Jednak ten paradoks nie potrwa długo; to po prostu następna granica do zdobycia.
155
To bardzo interesujący i, moim zdaniem, ważny artykuł. Myślenie w długim kontekście jest, moim zdaniem, krytycznie ważną cechą. Wyobraź sobie model AI, który potrafi myśleć milion kroków naprzód!
✅Myślenie GPT-5 jest znacznie bardziej zaawansowane niż wszystkich innych modeli, które testowaliśmy. Może wykonać zadania liczące ponad 1000 kroków za jednym razem.
✅Na drugim miejscu z 432 krokami jest Claude 4 Sonnet... a następnie Grok-4 z 384
✅Gemini 2.5 Pro i DeepSeek R1 znacznie odstają, mając tylko 120.

Shashwat Goel12 wrz, 23:42
Świeżutki artykuł: Iluzja malejących zwrotów: Mierzenie długoterminowej egzekucji w LLM-ach.
Czy małe modele to przyszłość agentowego AI? Czy skalowanie obliczeń LLM nie jest warte kosztów z powodu malejących zwrotów? Czy autoregresywne LLM-y są skazane na porażkę, a myślenie to iluzja?
Negatywne scenariusze dla skalowania LLM-ów są wszystkie związane z jedną zdolnością: Długoterminową Egzekucją. Jednak to właśnie dlatego powinieneś być optymistyczny co do skalowania rozmiaru modelu i obliczeń w czasie testu!
> Po pierwsze, pamiętasz wykres METR? Może być wyjaśniony przez model @ylecun dotyczący kumulujących się błędów
> długość horyzontu modelu rośnie super-ekspotencjalnie (@DaveShapi) w dokładności pojedynczego kroku.
> Wniosek 1: Nie daj się zwieść spowolnionemu postępowi w typowych benchmarkach krótkoterminowych
> to wystarczy do eksponencjalnego wzrostu długości horyzontu.
Ale idziemy dalej niż model @ylecun, testując LLM-y empirycznie...
> Sama egzekucja jest również trudna dla LLM-ów, nawet gdy dostarczysz im potrzebny plan i wiedzę.
> Nie powinniśmy mylić niepowodzeń w egzekucji z brakiem zdolności do "rozumowania".
> Nawet gdy mały model ma 100% dokładności w pojedynczym kroku, większe modele mogą wykonać znacznie więcej ruchów powyżej progu sukcesu.
> Zauważyłeś, jak twój agent radzi sobie gorzej, gdy zadanie staje się dłuższe? To nie tylko ograniczenia długiego kontekstu..
> Obserwujemy: Efekt Samo-Conditioning!
> Gdy modele widzą błędy, które popełniły wcześniej w swojej historii, stają się bardziej skłonne do popełniania błędów w przyszłych ruchach.
> Zwiększenie rozmiaru modelu pogarsza ten problem - rzadki przypadek odwrotnej skali!
A co z myśleniem...?
> Myślenie nie jest iluzją. To silnik egzekucji!
> Gdzie nawet DeepSeek v3, Kimi K2 nie potrafią wykonać nawet 5 ruchów latentnie, gdy są proszone o egzekucję bez CoT...
> Z CoT mogą zrobić 10 razy więcej.
A co z granicą?
> Myślenie GPT-5 jest znacznie lepsze od wszystkich innych modeli, które testowaliśmy. Może wykonać zadania o długości 1000+ kroków za jednym razem.
> Na drugim miejscu z 432 krokami jest Claude 4 Sonnet... a potem Grok-4 z 384
> Gemini 2.5 Pro i DeepSeek R1 znacznie odstają, mając tylko 120.
> Czy to dlatego GPT-5 nosił kodową nazwę Horyzont? 🤔
> Open-source ma jeszcze długą ;) drogę do przebycia!
> Rozwijajmy to razem! Udostępniamy cały kod i dane.
Zrobiliśmy długą, głęboką analizę i przedstawiamy najlepsze wnioski z niesamowitymi wykresami poniżej 👇

187
Najlepsze
Ranking
Ulubione