Pembicaraan terbaik tentang masa lalu/sekarang/masa depan pengkodean evals di @aidotengineer CODE. Pada dasarnya lacak dengan cakrawala: detik: Arena Copilot menit: LiveCodeBench beberapa menit: RepoChat ~ jam: GSO beberapa jam: Syzygy Hari:??? ketika saya mengundang @StringChaos untuk berbicara, saya bahkan tidak menyadari bahwa dia telah bergabung dengan @Cursor_ai penuh waktu; Saya hanya berharap untuk cerita LiveCodeBench. Sebaliknya kami mendapatkan lebih dari yang pernah saya impikan; Pandangan komprehensif tentang semua cara di mana Koding EVALS telah berkembang dalam 3 tahun terakhir dan semua yang telah dipelajari komunitas, termasuk peretasan hadiah O3, dan sekarang tolok ukur untuk memigrasikan kode dan eval online dalam jumlah SANGAT besar untuk menyesuaikan latensi dan kendala dunia nyata. diakhiri dengan beberapa rekomendasi preskriptif jika Anda juga membuat EVAL pengkodean Anda sendiri.