Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Der beste Vortrag über die Vergangenheit/Gegenwart/Zukunft von Coding-Evals bei @aidotengineer CODE. Im Grunde genommen nach Horizonten verfolgen:
Sekunden: Copilot Arena
Minuten: LiveCodeBench
mehrere Minuten: RepoChat
~Stunde: GSO
mehrere Stunden: Syzygy
Tage: ???
Als ich @StringChaos eingeladen habe zu sprechen, war mir nicht einmal bewusst, dass er Vollzeit bei @Cursor_ai arbeitet; ich hoffte nur auf die Geschichte von LiveCodeBench. Stattdessen bekamen wir mehr, als ich je erträumt hatte; einen umfassenden Blick auf all die Wege, wie sich Coding-Evals in den letzten 3 Jahren entwickelt haben und alles, was die Community gelernt hat, einschließlich o3's Reward-Hacking und jetzt Benchmarks, um WIRKLICH große Mengen an Code und Online-Evals zu migrieren, um die Latenz und reale Einschränkungen zu berücksichtigen. Endet mit einigen tatsächlich präskriptiven Empfehlungen, wenn du auch eigene Coding-Evals baust.



Top
Ranking
Favoriten
