Meilleure présentation sur le passé/le présent/le futur des évaluations de codage lors de @aidotengineer CODE. En gros, suivez-le par horizons : secondes : Copilot Arena minutes : LiveCodeBench plusieurs minutes : RepoChat ~heure : GSO plusieurs heures : Syzygy days : ??? Lorsque j'ai invité @StringChaos à prendre la parole, je n'étais même pas au courant qu'il avait rejoint @Cursor_ai à plein temps ; j'espérais juste entendre l'histoire de LiveCodeBench. Au lieu de cela, nous avons obtenu plus que je n'aurais jamais rêvé ; un aperçu complet de toutes les façons dont les évaluations de codage ont évolué au cours des 3 dernières années et tout ce que la communauté a appris, y compris le hacking de récompenses d'o3, et maintenant des benchmarks pour migrer de TRÈS grandes quantités de code et des évaluations en ligne pour s'ajuster à la latence et aux contraintes du monde réel. Se termine par quelques recommandations réellement prescriptives si vous construisez également vos propres évaluations de codage.