Der beste Vortrag über die Vergangenheit/Gegenwart/Zukunft von Coding-Evals bei @aidotengineer CODE. Im Grunde genommen nach Horizonten verfolgen: Sekunden: Copilot Arena Minuten: LiveCodeBench mehrere Minuten: RepoChat ~Stunde: GSO mehrere Stunden: Syzygy Tage: ??? Als ich @StringChaos eingeladen habe zu sprechen, war mir nicht einmal bewusst, dass er Vollzeit bei @Cursor_ai arbeitet; ich hoffte nur auf die Geschichte von LiveCodeBench. Stattdessen bekamen wir mehr, als ich je erträumt hatte; einen umfassenden Blick auf all die Wege, wie sich Coding-Evals in den letzten 3 Jahren entwickelt haben und alles, was die Community gelernt hat, einschließlich o3's Reward-Hacking und jetzt Benchmarks, um WIRKLICH große Mengen an Code und Online-Evals zu migrieren, um die Latenz und reale Einschränkungen zu berücksichtigen. Endet mit einigen tatsächlich präskriptiven Empfehlungen, wenn du auch eigene Coding-Evals baust.