Melhor palestra sobre o passado/presente/futuro das avaliações de programação no @aidotengineer CODE. Basicamente, acompanhe por horizontes: segundos: Copilot Arena atas: LiveCodeBench vários minutos: RepoChat ~hora: GSO várias horas: Syzygy Dias:??? quando @StringChaos convidei para falar, nem sabia que ele havia entrado @Cursor_ai tempo integral; Eu só estava esperando pela história do LiveCodeBench. Em vez disso, recebemos mais do que eu jamais sonhei; um olhar abrangente sobre todas as formas como as avaliações de koding evoluíram nos últimos 3 anos e tudo o que a comunidade aprendeu, incluindo o hacking de recompensas do O3, e agora benchmarks para migrar quantidades REALMENTE grandes de código e avaliações online para ajustar latência e restrições do mundo real. termina com algumas recomendações realmente prescritivas se você também estiver montando avaliações de código próprias.