Jeg synes dette er en god måte å visualisere AI-løpet på ved hjelp av den langlivede GPQA Diamond-benchmarken. Du kan se hvor lenge OpenAI hadde feltet for seg selv, fremveksten (og kollapsen) av Meta, den plutselige innhentingen (og deretter stagnasjonen) av xAI, og innføringen av åpne vekt kinesiske LLM-er.
Graduate-Level Google-Proof Q&A-testen (GPQA) er en serie vanskelige flervalgsoppgaver designet for å teste avansert kunnskap. Ikke-eksperter med internetttilgang får 34 % riktig, PhD-er med internett-tilgang får 65-70 % innenfor sitt fagfelt. Vi er sannsynligvis nær metning
Jeg befalte Codex at dette skulle gjøres. Data fra @EpochAIResearch.
1,42K