Лучший доклад о прошлом/настоящем/будущем кодирования оценок на @aidotengineer CODE. В основном отслеживайте это по горизонтам: секунды: Copilot Arena минуты: LiveCodeBench несколько минут: RepoChat ~час: GSO несколько часов: Syzygy dни: ??? Когда я пригласил @StringChaos выступить, я даже не знал, что он присоединился к @Cursor_ai на полную ставку; я просто надеялся на историю LiveCodeBench. Вместо этого мы получили больше, чем я когда-либо мечтал; всесторонний взгляд на все способы, которыми коды оценок эволюционировали за последние 3 года и все, что сообщество узнало, включая взлом вознаграждений o3, а теперь и бенчмарки для миграции ДЕЙСТВИТЕЛЬНО больших объемов кода и онлайн-оценок для корректировки задержки и реальных ограничений. Завершается некоторыми действительно предписывающими рекомендациями, если вы также создаете свои собственные коды оценок.