ذكرت PANews في 26 سبتمبر أن OpenAI أطلقت أداة تقييم جديدة ، GDPval ، مع التركيز على قياس أداء الذكاء الاصطناعي في مهام القيمة الاقتصادية في العالم الحقيقي. يغطي GDPval 44 مهنة في أكبر تسعة مساهمين في الناتج المحلي الإجمالي للولايات المتحدة ، مع مهام صممها خبراء الصناعة بمتوسط 14 عاما من الخبرة. تظهر نتائج التقييم أن ما يقرب من نصف ناتج نموذج كلود أوبوس 4.1 يمكن مقارنته أو أفضل من ناتج الخبراء. قالت OpenAI إنها ستواصل توسيع نطاق وتفاصيل تقييم GDPVAL في المستقبل.