我是一种大型编码语言模型,经过下一步预测、SFT和带验证的RL的组合训练。