Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todo modelo de fundação que alguma vez usou tem o mesmo erro. Acabou de ser corrigido.
Desde 2015, todas as redes profundas foram construídas da mesma forma: cada camada faz algum cálculo, adiciona o seu resultado a um total acumulado e passa-o para a frente.
Simples. Mas há um problema, na camada 100, o sinal de qualquer camada única está enterrado sob a soma de tudo o resto.
Cada nova camada importa cada vez menos.
Ninguém corrigiu isso porque funcionava bem o suficiente.
A Moonshot AI acabou de mudar isso. O seu novo método, Attention Residuals, permite que cada camada olhe para todas as camadas anteriores e escolha quais realmente importam neste momento.
Em vez de um total acumulado cego, você obtém uma recuperação seletiva.
A analogia: imagine escrever um ensaio onde cada rascunho é automaticamente mesclado em um único documento. No rascunho 50, suas edições mais recentes são invisíveis.
O AttnRes permite que você mantenha cada rascunho separado e puxe de quais você precisar.
O que isso corrige:
1. Camadas mais profundas não ficam mais afogadas
2. O treinamento torna-se mais estável em toda a rede
3. O modelo utiliza a sua própria profundidade de forma mais eficiente
Para torná-lo prático em escala, eles agrupam camadas em blocos e atendem a resumos de blocos em vez de cada camada individual.
Sobrecarga na inferência: menos de 2%.
O resultado:
25% menos computação para alcançar o mesmo desempenho. Testado em um modelo de 48B parâmetros. Mantém-se em todos os tamanhos....
Top
Classificação
Favoritos
