PANews melaporkan pada 26 September bahwa OpenAI meluncurkan alat evaluasi baru, GDPval, yang berfokus pada pengukuran kinerja AI dalam tugas-tugas nilai ekonomi dunia nyata. GDPval mencakup 44 pekerjaan di sembilan kontributor terbesar PDB AS, dengan tugas yang dirancang oleh pakar industri dengan pengalaman rata-rata 14 tahun. Hasil evaluasi menunjukkan bahwa hampir setengah dari output model Claude Opus 4.1 sebanding dengan atau lebih baik daripada para ahli. OpenAI mengatakan akan terus memperluas ruang lingkup dan detail penilaian GDPVAL di masa depan.