Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Profesor, científico biomédico, inmunólogo humano, inmunoterapia contra el envejecimiento y el cáncer. TODO EN IA. Intereses: BioAI, robótica, ajedrez de ciencia ficción espacial. Opinión personal
Por el momento, la "inteligencia del plomero" es más valiosa que la inteligencia a nivel de doctorado porque los modelos de IA han superado a esta última a nivel cognitivo, pero están muy por detrás en la inteligencia física. Sin embargo, esta paradoja no durará mucho; es simplemente la próxima frontera a conquistar.
137
Este es un documento muy interesante y, creo, importante. El pensamiento de contexto largo es una característica críticamente importante, en mi opinión. ¡Imagínese un modelo de IA que puede pensar un millón de pasos por delante!
✅GPT-5 Thinking está muy por delante de todos los demás modelos que probamos. Puede ejecutar tareas de 1000+ pasos de una sola vez.
✅En segundo lugar, con 432 pasos, está Claude 4 Sonnet... y luego Grok-4 en 384
✅Gemini 2.5 Pro y DeepSeek R1 están muy por detrás, con solo 120.

Shashwat Goel12 sept, 23:42
Papel recién salido de la imprenta: La ilusión de rendimientos decrecientes: medición de la ejecución a largo plazo en LLM.
¿Son los modelos pequeños el futuro de la IA agencial? ¿No vale la pena escalar el cálculo de LLM debido a la disminución de los rendimientos? ¿Están condenados los LLM autorregresivos y el pensamiento es una ilusión?
Los casos bajistas para el escalado de LLM están todos conectados a una sola capacidad: Ejecución de largo horizonte. Sin embargo, esa es exactamente la razón por la que debe ser optimista sobre el escalado del tamaño del modelo y el cálculo en tiempo de prueba.
> Primero, ¿recuerdas el gráfico de METR? Podría explicarse por el modelo de errores de composición de @ylecun
> la longitud del horizonte de un modelo crece de forma superexponencial (@DaveShapi) en la precisión de un solo paso.
> Resultado 1: No se deje engañar por la ralentización del progreso en los típicos puntos de referencia de tareas cortas
> eso es suficiente para un crecimiento exponencial en la longitud del horizonte.
Pero vamos más allá del modelo de @ylecun, probando los LLM empíricamente...
> La ejecución justa también es difícil para los LLM, incluso cuando les proporciona el plan y el conocimiento necesarios.
> No debemos malinterpretar los fallos de ejecución como una incapacidad para "razonar".
> Incluso cuando un modelo pequeño tiene una precisión del 100% en un solo paso, los modelos más grandes pueden ejecutar muchos más giros por encima de un umbral de tasa de éxito.
> ¿Has notado cómo tu agente se desempeña peor a medida que la tarea se alarga? No son solo limitaciones de contexto largo..
> Observamos: ¡El efecto de autocondicionamiento!
> Cuando los modelos ven errores que cometieron anteriormente en su historia, es más probable que cometan errores en giros futuros.
> Aumentar el tamaño del modelo empeora este problema, ¡un caso raro de escala inversa!
Entonces, ¿qué pasa con pensar ...?
> Pensar no es una ilusión. ¡Es el motor de la ejecución!
> Donde incluso DeepSeek v3, Kimi K2 no puede ejecutar ni siquiera 5 turnos de forma latente cuando se le pide que ejecute sin CoT ...
> Con CoT, pueden hacer 10 veces más.
Entonces, ¿qué pasa con la frontera?
> GPT-5 Thinking está muy por delante de todos los demás modelos que probamos. Puede ejecutar tareas de 1000+ pasos de una sola vez.
> En segundo lugar, con 432 pasos, está Claude 4 Sonnet... y luego Grok-4 en 384
> Gemini 2.5 Pro y DeepSeek R1 se quedan muy atrás, con solo 120.
> ¿Es por eso que GPT-5 recibió el nombre en código Horizon? 🤔
> El código abierto tiene una larga ;) ¡Bien hecho!
> ¡Hagámoslo crecer juntos! Liberamos todo el código y los datos.
Hicimos una inmersión profunda y le presentamos las mejores conclusiones con tramas increíbles a continuación 👇

141
Populares
Ranking
Favoritas