Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Profesor, om de știință biomedical, imunolog uman, imunoterapie pentru îmbătrânire și cancer. TOTUL ÎN AI. Interese: BioAI, robotică, șah științific spațial. Opinie personală
În acest moment, "inteligența instalatorului" este mai valoroasă decât inteligența la nivel de doctorat, deoarece modelele AI au depășit-o pe cea din urmă la nivel cognitiv, dar rămân mult în urmă în inteligența fizică. Cu toate acestea, acest paradox nu va dura mult; este pur și simplu următoarea frontieră de cucerit.
171
Aceasta este o lucrare foarte interesantă și, cred, importantă. Gândirea cu context lung este o caracteristică extrem de importantă, în opinia mea. Imaginați-vă un model AI care poate gândi cu un milion de pași înainte!
✅GPT-5 Thinking este cu mult înaintea tuturor celorlalte modele pe care le-am testat. Poate executa 1000+ sarcini în pași dintr-o singură mișcare.
✅Pe locul al doilea, cu 432 de pași, se află Claude 4 Sonnet... și apoi Grok-4 la 384
✅Gemini 2.5 Pro și DeepSeek R1 rămân mult în urmă, cu doar 120.

Shashwat Goel12 sept., 23:42
Lucrare proaspătă a presei: Iluzia randamentelor în scădere: măsurarea execuției la orizont lung în LLM-uri.
Sunt modelele mici viitorul AI agentic? Scalarea calculului LLM nu merită costul din cauza randamentelor în scădere? Sunt LLM-urile autoregresive condamnate și gândirea o iluzie?
Cazurile bear pentru scalarea LLM sunt toate conectate la o singură capacitate: Long Horizon Execution. Cu toate acestea, tocmai de aceea ar trebui să fii optimist în ceea ce privește scalarea dimensiunii modelului și calculul în timpul testului!
> În primul rând, vă amintiți graficul METR? Ar putea fi explicat prin modelul @ylecun al erorilor de compugere
> lungimea orizontului unui model crește super-exponențial (@DaveShapi) cu precizie într-un singur pas.
> Rezultatul 1: Nu vă lăsați păcăliți de încetinirea progresului pe benchmark-urile tipice de sarcini scurte
> este suficient pentru o creștere exponențială a lungimii orizontului.
Dar mergem dincolo de modelul lui @ylecun, testând LLM-uri empiric...
> Execuția justă este, de asemenea, dificilă pentru LLM-uri, chiar și atunci când le oferiți planul și cunoștințele necesare.
> Nu ar trebui să interpretăm greșit eșecurile de execuție ca o incapacitate de a "raționa".
> Chiar și atunci când un model mic are o precizie de 100% într-un singur pas, modelele mai mari pot executa mult mai multe viraje peste pragul ratei de succes.
> Ați observat cum agentul dumneavoastră se comportă mai rău pe măsură ce sarcina devine mai lungă? Nu sunt doar limitări de context îndelungate.
> Observăm: Efectul de auto-condiționare!
> Când modelele văd erori pe care le-au făcut mai devreme în istoria lor, devin mai predispuse să facă erori în virajele viitoare.
> Creșterea dimensiunii modelului agravează această problemă - un caz rar de scalare inversă!
Deci, cum rămâne cu gândul...?
> Gândirea nu este o iluzie. Este motorul execuției!
> În timp ce nici măcar DeepSeek v3, Kimi K2 nu reușește să execute nici măcar 5 ture latente atunci când i se cere să execute fără CoT...
> Cu CoT, pot face de 10 ori mai mult.
Deci, cum rămâne cu frontiera?
> GPT-5 Thinking este cu mult înaintea tuturor celorlalte modele pe care le-am testat. Poate executa 1000+ sarcini în pași dintr-o singură mișcare.
> Pe locul al doilea, cu 432 de pași, se află Claude 4 Sonnet... și apoi Grok-4 la 384
> Gemini 2.5 Pro și DeepSeek R1 rămân mult în urmă, cu doar 120.
> De aceea GPT-5 a primit numele de cod Horizon? 🤔
> Open-source are o ;) lungă drum de urmat!
> Hai să-l creștem împreună! Eliberăm tot codul și datele.
Am făcut o scufundare profundă lungă și vă prezentăm cele mai bune concluzii cu intrigi minunate mai jos 👇

203
Limită superioară
Clasament
Favorite