Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Professor, cientista biomédico, imunologista humano, imunoterapia contra envelhecimento e câncer. TUDO NA IA. Interesses: BioIA, robótica, xadrez de ficção científica espacial. Opinião pessoal
No momento, a "inteligência do encanador" é mais valiosa do que a inteligência em nível de doutorado porque os modelos de IA superaram o último no nível cognitivo, mas ficam muito atrás na inteligência física. No entanto, esse paradoxo não durará muito; é simplesmente a próxima fronteira a ser conquistada.
152
Este é um artigo muito interessante e, acredito, importante. O pensamento de longo contexto é uma característica extremamente importante, na minha opinião. Imagine um modelo de IA que pode pensar um milhão de passos à frente!
✅O GPT-5 Thinking está muito à frente de todos os outros modelos que testamos. Ele pode executar tarefas de 1000+ etapas de uma só vez.
✅Em segundo lugar, com 432 passos, está o Soneto de Claude 4 ... e depois Grok-4 em 384
✅O Gemini 2.5 Pro e o DeepSeek R1 ficam muito atrás, com apenas 120.

Shashwat Goel12 de set., 23:42
Artigo recém-saído da imprensa: A ilusão de retornos decrescentes: medindo a execução de longo horizonte em LLMs.
Os pequenos modelos são o futuro da IA agêntica? O dimensionamento da computação LLM não vale o custo devido aos retornos decrescentes? Os LLMs autorregressivos estão condenados e pensando em uma ilusão?
Os casos de baixa para escalonamento de LLM estão todos conectados a um único recurso: Long Horizon Execution. No entanto, é exatamente por isso que você deve ser otimista em dimensionar o tamanho do modelo e a computação em tempo de teste!
> Primeiro, lembre-se do enredo METR? Isso pode ser explicado pelo modelo de @ylecun de erros compostos
> o comprimento do horizonte de um modelo cresce superexponencialmente (@DaveShapi) em precisão de etapa única.
> Resultado 1: Não se deixe enganar por retardar o progresso em benchmarks típicos de tarefas curtas
> isso é suficiente para o crescimento exponencial no comprimento do horizonte.
Mas vamos além do modelo de @ylecun, testando LLMs empiricamente...
> A execução justa também é difícil para os LLMs, mesmo quando você fornece a eles o plano e o conhecimento necessários.
> Não devemos interpretar erroneamente as falhas de execução como uma incapacidade de "raciocinar".
> Mesmo quando um modelo pequeno tem 100% de precisão em uma única etapa, modelos maiores podem executar muito mais voltas acima de um limite de taxa de sucesso.
> Notou como seu agente tem um desempenho pior à medida que a tarefa fica mais longa? Não são apenas limitações de contexto longo..
> Observamos: O Efeito Autocondicionante!
> Quando os modelos veem erros que cometeram no início de sua história, eles se tornam mais propensos a cometer erros em turnos futuros.
> Aumentar o tamanho do modelo piora esse problema - um caso raro de escala inversa!
Então, que tal pensar...?
> Pensar não é uma ilusão. É o motor para a execução!
> Onde mesmo o DeepSeek v3, Kimi K2 não conseguem executar até 5 turnos de forma latente quando solicitados a executar sem CoT...
> Com o CoT, eles podem fazer 10x mais.
E quanto à fronteira?
> GPT-5 Thinking está muito à frente de todos os outros modelos que testamos. Ele pode executar tarefas de 1000+ etapas de uma só vez.
> Em segundo lugar com 432 passos está Claude 4 Soneto... e depois Grok-4 em 384
> Gemini 2.5 Pro e DeepSeek R1 ficam muito atrás, com apenas 120.
> É por isso que o GPT-5 recebeu o codinome Horizon? 🤔
> O código aberto tem um longo ;) É isso aí!
> Vamos crescer juntos! Liberamos todo o código e dados.
Fizemos um mergulho profundo e apresentamos as melhores conclusões com gráficos incríveis abaixo 👇

183
Melhores
Classificação
Favoritos