DApp Store | Web3 Hub for hendelser og spill

Populære emner

Jeg synes dette er en god måte å visualisere AI-løpet på ved hjelp av den langlivede GPQA Diamond-benchmarken. Du kan se hvor lenge OpenAI hadde feltet for seg selv, fremveksten (og kollapsen) av Meta, den plutselige innhentingen (og deretter stagnasjonen) av xAI, og innføringen av åpne vekt kinesiske LLM-er.

Graduate-Level Google-Proof Q&A-testen (GPQA) er en serie vanskelige flervalgsoppgaver designet for å teste avansert kunnskap. Ikke-eksperter med internetttilgang får 34 % riktig, PhD-er med internett-tilgang får 65-70 % innenfor sitt fagfelt. Vi er sannsynligvis nær metning

Jeg befalte Codex at dette skulle gjøres. Data fra @EpochAIResearch.

1,42K

Topp

Rangering

Favoritter