SimpleVLA-RL Escalonando o Treinamento VLA via Aprendizado por Reforço