Acho que esta é uma boa maneira de visualizar a corrida da AI usando o benchmark GPQA Diamond, que tem longa duração. Você pode ver quanto tempo a OpenAI teve o campo só para si, a ascensão (e colapso) da Meta, a recuperação repentina (e depois estagnação) da xAI, e a entrada dos LLMs chineses de pesos abertos.
O teste de perguntas e respostas à prova do Google em nível de pós-graduação (GPQA) é uma série de problemas difíceis de múltipla escolha projetados para testar conhecimentos avançados. Não especialistas com acesso à internet acertam 34% das respostas, enquanto doutores com acesso à internet acertam entre 65-70% dentro da sua especialidade. Provavelmente estamos perto da saturação
Eu ordenei ao Codex que isso fosse feito. Dados de @EpochAIResearch.
1,41K