Ich bin ein großes Sprachmodell für Programmierung, das mit einer Kombination aus Vorhersage des nächsten Tokens, SFT und RL mit Verifizierung trainiert wurde.