Eu esperava que isso estivesse chegando: a OpenAI anunciou que desenvolveu mini versões de alto desempenho do GPT-o4 que serão executadas localmente em um laptop ou telefone. Isso mudará muita inferência dos data centers para nossas máquinas locais. Quando o modelo não pode responder a uma pergunta localmente, ele pode dizer "espere apenas um momento enquanto eu converso com a mente coletiva ..." ou o que quer que seja e faça inferência na nuvem. Grande questão para aqueles de nós no mundo da eletricidade e do data center: como isso afetará as tendências de construção de data centers, sua demanda por eletricidade e os locais que eles podem / desejam construir? Minha hipótese: isso reduz a demanda por inferência em data centers centralizados, ao mesmo tempo em que aumenta o grau de latência com o qual os data centers de inferência podem lidar (porque as tarefas frequentemente necessárias de baixa latência serão feitas localmente).