Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Forrige uke deltok resonnementmodellene våre i 2025 International Collegiate Programming Contest (ICPC), verdens fremste programmeringskonkurranse på universitetsnivå. Systemet vårt løste alle 12 av 12 problemer, en prestasjon som ville ha plassert seg først i verden (det beste menneskelige teamet løste 11 problemer).
Denne milepælen avrunder en intens 2 måneder med konkurranseprestasjoner av modellene våre:
- En andreplass i AtCoder Heuristics World Finals
- Gullmedalje i den internasjonale matematikkolympiaden
- Gullmedalje i den internasjonale olympiaden i informatikk
- Og nå, en gullmedalje, førsteplass i ICPC World Finals.
Jeg tror disse resultatene, som kommer fra en familie av generelle resonneringsmodeller forankret i vårt hovedforskningsprogram, kanskje er den klareste målestokken for fremgang i år. Disse konkurransene er flotte selvstendige, tidsboksede tester for evnen til å oppdage nye ideer. Selv før modellene våre var dyktige i enkel aritmetikk, så vi på disse konkurransene som milepæler for fremgang mot transformativ kunstig intelligens.
Modellene våre rangerer nå blant de beste menneskene i disse domenene, når de stilles med godt spesifiserte spørsmål og begrenset til ~5 timer. Utfordringen nå går over til mer åpne problemer, og mye lengre tidshorisonter. Dette nivået av resonneringsevne, brukt over måneder og år på problemer som virkelig betyr noe, er det vi er ute etter - automatisering av vitenskapelige oppdagelser.
Denne raske fremgangen understreker også viktigheten av forskning på sikkerhet og justering. Vi trenger fortsatt mer forståelse av justeringsegenskapene til langvarige resonneringsmodeller; spesielt anbefaler jeg å gjennomgå de fascinerende funnene fra studiet av intriger i resonneringsmodeller som vi publiserte i dag (
Gratulerer til lagkameratene mine som la ned hjertet sitt for å få disse konkurranseresultatene, og til alle som bidrar til den underliggende grunnleggende forskningen som gjør dem mulig!
Topp
Rangering
Favoritter