Melhor palestra sobre o passado/presente/futuro das avaliações de codificação na @aidotengineer CODE. Basicamente, acompanhe por horizontes: segundos: Copilot Arena minutos: LiveCodeBench vários minutos: RepoChat ~hora: GSO várias horas: Syzygy dias: ??? quando convidei @StringChaos para falar, nem sabia que ele tinha se juntado à @Cursor_ai em tempo integral; eu só esperava pela história do LiveCodeBench. Em vez disso, recebemos mais do que eu jamais sonhei; uma visão abrangente de todas as maneiras pelas quais as avaliações de codificação evoluíram nos últimos 3 anos e tudo o que a comunidade aprendeu, incluindo a manipulação de recompensas do o3, e agora benchmarks para migrar MUITAS quantidades de código e avaliações online para ajustar a latência e as restrições do mundo real. Termina com algumas recomendações realmente prescritivas se você também estiver construindo suas próprias avaliações de codificação.