Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Profesor, científico biomédico, inmunólogo humano, inmunoterapia contra el envejecimiento y el cáncer. TODO EN IA. Intereses: BioAI, robótica, ajedrez de ciencia ficción espacial. Opinión personal
En este momento, la "inteligencia de fontanero" es más valiosa que la inteligencia a nivel de doctorado porque los modelos de IA han superado a esta última en el nivel cognitivo, pero están muy por detrás en inteligencia física. Sin embargo, esta paradoja no durará mucho; es simplemente la próxima frontera a conquistar.
150
Este es un documento muy interesante y, creo, importante. El pensamiento a largo plazo es una característica críticamente importante, en mi opinión. ¡Imagina un modelo de IA que pueda pensar un millón de pasos adelante!
✅El pensamiento de GPT-5 está muy por delante de todos los demás modelos que probamos. Puede ejecutar tareas de más de 1000 pasos de una sola vez.
✅En segundo lugar, con 432 pasos, está Claude 4 Sonnet... y luego Grok-4 con 384
✅Gemini 2.5 Pro y DeepSeek R1 están muy rezagados, con solo 120.

Shashwat Goel12 sept, 23:42
Documento recién salido de la prensa: La ilusión de los rendimientos decrecientes: Midiendo la ejecución a largo plazo en LLMs.
¿Son los modelos pequeños el futuro de la IA agente? ¿No vale la pena escalar el cómputo de LLM debido a los rendimientos decrecientes? ¿Están condenados los LLMs autorregresivos, y es el pensamiento una ilusión?
Los casos pesimistas para la escalabilidad de LLM están todos conectados a una única capacidad: Ejecución a Largo Plazo. Sin embargo, por eso mismo deberías ser optimista sobre escalar el tamaño del modelo y el cómputo en tiempo de prueba.
> Primero, ¿recuerdas el gráfico METR? Podría explicarse por el modelo de errores acumulativos de @ylecun
> la longitud del horizonte de un modelo crece de manera super-exponencial (@DaveShapi) en precisión de un solo paso.
> Conclusión 1: No te dejes engañar por el progreso lento en los benchmarks típicos de tareas cortas
> eso es suficiente para un crecimiento exponencial en la longitud del horizonte.
Pero vamos más allá del modelo de @ylecun, probando LLMs empíricamente...
> Solo la ejecución también es difícil para los LLMs, incluso cuando les proporcionas el plan y el conocimiento necesarios.
> No deberíamos malinterpretar los fracasos de ejecución como una incapacidad para "razonar".
> Incluso cuando un modelo pequeño tiene un 100% de precisión en un solo paso, los modelos más grandes pueden ejecutar muchas más acciones por encima de un umbral de tasa de éxito.
> ¿Notaste cómo tu agente rinde peor a medida que la tarea se alarga? No son solo limitaciones de contexto largo..
> Observamos: ¡El Efecto de Auto-Condicionamiento!
> Cuando los modelos ven errores que cometieron anteriormente en su historia, se vuelven más propensos a cometer errores en futuros turnos.
> Aumentar el tamaño del modelo empeora este problema - ¡un raro caso de escalado inverso!
¿Y qué pasa con el pensamiento...?
> Pensar no es una ilusión. ¡Es el motor de la ejecución!
> Donde incluso DeepSeek v3, Kimi K2 no logran ejecutar ni 5 turnos latentes cuando se les pide ejecutar sin CoT...
> Con CoT, pueden hacer 10 veces más.
¿Y qué pasa con la frontera?
> El pensamiento de GPT-5 está muy por delante de todos los demás modelos que probamos. Puede ejecutar tareas de más de 1000 pasos de una vez.
> En segundo lugar, con 432 pasos está Claude 4 Sonnet... y luego Grok-4 con 384
> Gemini 2.5 Pro y DeepSeek R1 quedan muy atrás, con solo 120.
> ¿Es por eso que GPT-5 fue apodado Horizonte? 🤔
> ¡El código abierto tiene un largo ;) camino por recorrer!
> ¡Hagámoslo crecer juntos! Publicamos todo el código y los datos.
Hicimos una larga y profunda inmersión, y te presentamos las mejores conclusiones con gráficos increíbles a continuación 👇

181
Parte superior
Clasificación
Favoritos