A Ineficiência Extrema do RL para Modelos Frontier 🧵 A transição de treinar modelos frontier através da previsão do próximo token para o aprendizado por reforço (RL) requer de 1.000 a 1.000.000 vezes mais computação por bit de informação que o modelo recebe para aprender. 1/11