Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tomasz Tunguz
Hoy construimos equipos en pirámides. Un líder, varios gerentes, muchos contribuyentes individuales.
En el mundo de la IA, ¿qué configuración de equipo tiene más sentido? Aquí hay algunas alternativas :
Primero, la pirámide corta. Los gerentes se convierten en gerentes de agentes. El trabajo realizado por los colaboradores individuales de antaño se convierte en la carga de trabajo de los agentes. Todo el mundo asciende un nivel de abstracción en el trabajo.
Esta configuración reduce el número de empleados en un 85% (1:7:49 -> 1:7). La proporción de gerentes por colaborador individual pasa de 1:7 a 1:1. La proporción de gerente a agente sigue siendo de 1:7.
En segundo lugar, ¡el cohete 🚀!
Un director, siete gerentes, 21 empleados. Todos en la organización son agentes gerentes, pero estos agentes reflejan su antigüedad. El director maneja un jefe de personal de IA, los gerentes son jugadores-entrenadores, ambos ejecutan objetivos ellos mismos y entrenan / entrenan a otros sobre cómo manipular la IA con éxito, lo que reduce el alcance del control a la mitad.
Esta configuración reduce el número de empleados (1:7:49 -> 1:7:14) en un 53%.
El futuro no es único para todos.
Aquí está el giro: no todos los departamentos de una empresa adoptarán la misma estructura organizativa. El impacto de la IA varía drásticamente según la función, creando un mundo en el que la forma de una empresa se vuelve más matizada que nunca.
Es probable que los equipos de ventas mantengan pirámides tradicionales o cohetes. Las relaciones impulsan los ingresos, y la empatía humana, la creatividad y las habilidades de negociación siguen siendo insustituibles. Los modelos clásicos de alcance de control todavía se aplican cuando la confianza y la relación son primordiales.
Los equipos de investigación y desarrollo presentan la mayor oportunidad para la transformación de la pirámide corta. La generación de código es el primer ajuste verdadero entre el producto y el mercado de la IA, generando entre el 50 y el 80% del código para las empresas líderes.
El éxito y el soporte del cliente pueden evolucionar hacia modelos híbridos: la IA maneja consultas rutinarias mientras que los humanos gestionan escaladas complejas y cuentas estratégicas. La capa tradicional de mandos intermedios se transforma en algo completamente nuevo.
Esta evolución desafía todo lo que sabemos sobre cómo escalar equipos de manera efectiva. La vieja sabiduría de 6-7 informes directos se rompe cuando los gerentes supervisan tanto los informes humanos como los agentes de IA.
La carga de reclutamiento que históricamente justificó las jerarquías de gestión también se transforma. En lugar de encontrar y desarrollar talento humano, los gerentes se centran cada vez más en configurar las capacidades de IA y optimizar la colaboración entre humanos e IA.
Si la empresa envía su organigrama, ¿qué organigrama imagina para su equipo?



1.09K
Un billón de tokens por día. ¿Es mucho?
"Y cuando miramos de cerca solo la cantidad de tokens servidos por las API de Foundry, procesamos más de 100 billones de tokens este trimestre, 5 veces más año tras año, incluido un récord de 50 billones de tokens solo el mes pasado".
En abril, Microsoft compartió una estadística, revelando que su producto Foundry está procesando alrededor de 1,7 billones de tokens por mes.
Ayer, Vipul compartió que está procesando 2t de inferencia de código abierto diariamente.
En julio, Google anunció un número asombroso :
"En I/O en mayo, anunciamos que procesamos 480 billones de tokens mensuales en nuestras superficies. Desde entonces hemos duplicado ese número, procesando ahora más de 980 billones de tokens mensuales, un aumento notable".
Google procesa 32,7 toneladas diarias, 16 veces más que Together y 574 veces más que el volumen de abril de Microsoft Foundry.
De estas cifras, podemos extraer algunas hipótesis:
1. La inferencia de código abierto es una fracción de inferencia de un solo dígito. No está claro qué fracción de los tokens de inferencia de Google provienen de sus modelos de código abierto como Gemma. Pero, si asumimos que Anthropic y OpenAI son 5t-10t tokens por día y todos de código cerrado, además de que Azure es más o menos similar en tamaño, entonces la inferencia de código abierto es probable que sea alrededor del 1-3% de la inferencia total.
2. Los agentes llegan temprano. El punto de datos de Microsoft sugiere que los agentes dentro de GitHub, Visual Studio, Copilot Studio y Microsoft Fabric contribuyen con menos del 1% de la inferencia general de IA en Azure.
3. Dado que se espera que Microsoft invierta $ 80 mil millones en comparación con los $ 85 mil millones de Google en infraestructura de centros de datos de IA este año, las cargas de trabajo de inferencia de IA de cada compañía deberían aumentar significativamente tanto a través del hardware en línea como de las mejoras algorítmicas.
"Solo a través de la optimización del software, estamos entregando un 90% más de tokens para la misma GPU en comparación con hace un año".
Microsoft está exprimiendo más limonada digital de sus GPU y Google también debe estar haciendo algo similar.
¿Cuándo veremos los primeros 10 o 50 billones de tokens de IA procesados por día? No puede estar muy lejos ahora.
- ¡Estimaciones de la nada!
- Google y Azure a 33 billones de tokens por día cada uno, Together y otros 5 neoclouds a aproximadamente 2 billones de tokens por día cada uno, y Anthropic y OpenAI a 5 billones de tokens por día, nos da 88 billones de tokens por día. Si asumimos que el 5% de los tokens de Google provienen de modelos de código abierto, eso es 1.65t tokens por día, o aproximadamente el 1.9% de la inferencia total. De nuevo, matemáticas muy aproximadas


901
Populares
Ranking
Favoritas