Hoje marca uma grande conquista para Nous, mas também potencialmente para o cenário de IA. Começamos uma execução de pré-treinamento descentralizada do que é basicamente um Deepseek denso - parâmetros 40B, mais de 20T tokens, com MLA para eficiência de contexto longo. Todos os checkpoints, não annealed, annealed, o conjunto de dados, tudo será opensource ao vivo à medida que o treinamento continua. Confira o blog que a equipe Psyche lidera @DillonRolnick, @theemozilla e Ari escreveram no tweet de citação para aprender *muito* mais sobre a infraestrutura.