أعتقد أن هذه طريقة جيدة لتصور سباق الذكاء الاصطناعي باستخدام معيار GPQA Diamond طويل الأمد. يمكنك أن ترى كم من الوقت احتفظ OpenAI بهذا المجال لنفسه، صعود (وانهيار) ميتا، اللحاق المفاجئ (ثم الركود) ل xAI، ودخول نماذج اللغة الصينية ذات الأوزان المفتوحة.
اختبار الأسئلة والأجوبة على مستوى الدراسات العليا (GPQA) هو سلسلة من المسائل الصعبة متعددة الخيارات المصممة لاختبار المعرفة المتقدمة. غير الخبراء الذين لديهم وصول إلى الإنترنت يحصلون على 34٪ صحيح، والدكتوراه الذين لديهم اتصال بالإنترنت يحصلون على 65-70٪ ضمن تخصصهم. ربما نحن قريبون من التشبع
أمرت كودكس بأن يتم صنع هذا. بيانات من @EpochAIResearch.
‏‎1.41‏K