Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Professor, cientista biomédico, imunologista humano, imunoterapia do envelhecimento e do cancro. TUDO EM IA. Interesses: BioAI, robótica, Space Scifi Chess. Opinião pessoal
Neste momento, a "inteligência de encanador" é mais valiosa do que a inteligência a nível de doutorado, porque os modelos de IA superaram este último a nível cognitivo, mas ficam muito atrás em inteligência física. No entanto, este paradoxo não durará muito; é simplesmente a próxima fronteira a conquistar.
151
Este é um artigo muito interessante e, acredito, importante. O pensamento de longo prazo é uma característica criticamente importante, na minha opinião. Imagine um modelo de IA que pode pensar um milhão de passos à frente!
✅O pensamento do GPT-5 está muito à frente de todos os outros modelos que testámos. Ele pode executar tarefas de mais de 1000 passos de uma só vez.
✅Em segundo lugar, com 432 passos, está o Claude 4 Sonnet... e depois o Grok-4 com 384
✅O Gemini 2.5 Pro e o DeepSeek R1 ficam muito atrás, com apenas 120.

Shashwat Goel12/09, 23:42
Artigo fresquinho: A Ilusão dos Retornos Decrescentes: Medindo a Execução de Longo Prazo em LLMs.
Serão os modelos pequenos o futuro da IA agente? A escalabilidade do cálculo em LLM não vale o custo devido aos retornos decrescentes? Estão os LLMs autoregressivos condenados, e o pensamento é uma ilusão?
Os casos pessimistas para a escalabilidade dos LLMs estão todos conectados a uma única capacidade: Execução de Longo Prazo. No entanto, é exatamente por isso que você deve ser otimista em relação ao aumento do tamanho do modelo e ao cálculo em tempo de teste!
> Primeiro, lembra do gráfico METR? Pode ser explicado pelo modelo de erros acumulados do @ylecun
> o comprimento do horizonte de um modelo cresce super-exponencialmente (@DaveShapi) em precisão de um único passo.
> Conclusão 1: Não se deixe enganar pelo progresso lento em benchmarks típicos de tarefas curtas
> que é suficiente para um crescimento exponencial no comprimento do horizonte.
Mas vamos além do modelo do @ylecun, testando LLMs empiricamente...
> Apenas a execução também é difícil para os LLMs, mesmo quando você fornece o plano e o conhecimento necessários.
> Não devemos interpretar falhas de execução como uma incapacidade de "raciocinar".
> Mesmo quando um modelo pequeno tem 100% de precisão em um único passo, modelos maiores podem executar muito mais turnos acima de um limite de taxa de sucesso.
> Notou como seu agente se sai pior à medida que a tarefa se torna mais longa? Não são apenas limitações de contexto longo..
> Observamos: O Efeito de Auto-Condicionamento!
> Quando os modelos veem erros que cometeram anteriormente em sua história, eles se tornam mais propensos a cometer erros em turnos futuros.
> Aumentar o tamanho do modelo agrava esse problema - um caso raro de escalabilidade inversa!
E quanto ao pensamento...?
> Pensar não é uma ilusão. É o motor da execução!
> Onde até o DeepSeek v3, Kimi K2 falham em executar até 5 turnos latentemente quando solicitados a executar sem CoT...
> Com CoT, eles podem fazer 10x mais.
E quanto à fronteira?
> O Pensamento do GPT-5 está muito à frente de todos os outros modelos que testamos. Ele pode executar tarefas de 1000+ passos de uma só vez.
> Em segundo lugar, com 432 passos, está o Claude 4 Sonnet... e depois o Grok-4 com 384
> O Gemini 2.5 Pro e o DeepSeek R1 ficam muito atrás, com apenas 120.
> É por isso que o GPT-5 foi codificado como Horizonte? 🤔
> O código aberto ainda tem um longo ;) caminho a percorrer!
> Vamos crescer juntos! Liberamos todo o código e dados.
Fizemos uma longa e profunda análise, e apresentamos a você os melhores pontos a serem destacados com gráficos incríveis abaixo 👇

182
Top
Classificação
Favoritos