PANews rapporterte 26 september at OpenAI lanserte et nytt evalueringsverktøy, GDPval, med fokus på å måle AIs ytelse i virkelige økonomiske verdioppgaver. BNPPval dekker 44 yrker i de ni største bidragsyterne til USAs BNP, med oppgaver utformet av bransjeeksperter med gjennomsnittlig 14 års erfaring. Evalueringsresultatene viser at nesten halvparten av produksjonen til Claude Opus 4.1-modellen er sammenlignbar med eller bedre enn ekspertenes. OpenAI sa at de vil fortsette å utvide omfanget og detaljene i GDPVAL-vurderingen i fremtiden.