A extrema ineficiência do RL para modelos de fronteira 🧵 A mudança de modelos de fronteira de treinamento por previsão de token próximo para aprendizado por reforço (RL) requer de 1.000 a 1.000.000 de vezes mais computação por bit de informação com a qual o modelo aprende. 1/11