Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Profesor, biomedicínský vědec, lidský imunolog, imunoterapie stárnutí a rakoviny. VŠE V UMĚLÉ INTELIGENCI. Zájmy: BioAI, robotika, vesmírné scifi šachy. Osobní názor
V současné době je "instalatérská inteligence" cennější než inteligence na úrovni doktorátu, protože modely umělé inteligence ji překonaly na kognitivní úrovni, ale výrazně zaostávají ve fyzické inteligenci. Tento paradox však nebude trvat dlouho; je to prostě další hranice, kterou je třeba dobýt.
53
Jedná se o velmi zajímavý a věřím, že důležitý článek. Myšlení v dlouhodobém kontextu je podle mého názoru kriticky důležitá vlastnost. Jen si představte model umělé inteligence, který dokáže myslet milion kroků dopředu!
✅GPT-5 Thinking je daleko před všemi ostatními modely, které jsme testovali. Dokáže provést 1000+ krokových úloh najednou.
✅Na druhém místě se 432 kroky je Sonet Claude 4... a pak Grok-4 na 384
✅Gemini 2.5 Pro a DeepSeek R1 zaostávají daleko za nimi, s pouhými 120.

Shashwat Goel12. 9. 23:42
Čerstvě vydaný článek: Iluze klesajících výnosů: Měření realizace dlouhého horizontu v LLM.
Jsou malé modely budoucností agentické umělé inteligence? Nestojí škálování výpočtů LLM za náklady kvůli klesajícím výnosům? Jsou autoregresní LLM odsouzeni k zániku a myšlení je iluze?
Medvědí případy pro škálování LLM jsou všechny spojeny s jedinou schopností: Long Horizon Execution. To je však přesně důvod, proč byste měli být optimističtí, pokud jde o škálování velikosti modelu a výpočty v době testu!
> Za prvé, pamatujete si na graf METR? To by mohlo být vysvětleno modelem složených chyb @ylecun
> horizont modelu roste superexponenciálně (@DaveShapi) s přesností na jeden krok.
> Závěr 1: Nenechte se zmást zpomalením pokroku v typických srovnávacích testech pro krátké úkoly
> to stačí pro exponenciální růst délky horizontu.
My však jdeme nad rámec @ylecun modelu a testujeme LLM empiricky...
> Spravedlivá realizace je pro LLM také obtížná, i když jim poskytnete potřebný plán a znalosti.
> Neměli bychom si chybně vykládat selhání exekuce jako neschopnost "uvažovat".
> I když má malý model 100% přesnost jednoho kroku, větší modely mohou provést mnohem více otoček nad prahem úspěšnosti.
> Všimli jste si, jak si váš agent vede hůře, když se úkol prodlužuje? Nejde jen o omezení dlouhodobého kontextu.
> pozorujeme: Účinek sebepodmiňování!
> Když modely vidí chyby, které udělaly dříve ve své historii, je pravděpodobnější, že budou dělat chyby v budoucích tazích.
> Zvětšení velikosti modelu tento problém zhoršuje - vzácný případ inverzního škálování!
Tak co přemýšlení...?
> Myšlení není iluze. Je to motor pro provedení!
> Kde ani DeepSeek v3, Kimi K2 nedokáže latentně provést ani 5 tahů, když je požádán o provedení bez CoT...
> S postýlkou toho zvládnou 10x více.
A co hranice?
> GPT-5 Thinking je daleko před všemi ostatními modely, které jsme testovali. Dokáže provést 1000+ krokových úloh najednou.
> Na druhém místě se 432 kroky je Sonet Claude 4... a pak Grok-4 na 384
> Gemini 2.5 Pro a DeepSeek R1 zaostávají daleko za nimi, pouhých 120.
> Je to důvod, proč měl GPT-5 kódové označení Horizon? 🤔
> Open-source má dlouhou ;) Jen tak dál!
> Pojďme to společně rozvíjet! Uvolníme veškerý kód a data.
Udělali jsme dlouhý hluboký ponor a níže 👇 vám představujeme nejlepší poznatky s úžasnými grafy

53
Top
Hodnocení
Oblíbené