PANews poinformował 26 września, że OpenAI uruchomiło nowe narzędzie ewaluacyjne, GDPval, koncentrujące się na pomiarze wydajności sztucznej inteligencji w rzeczywistych zadaniach związanych z wartością ekonomiczną. GDPval obejmuje 44 zawody w dziewięciu największych źródłach składek na PKB USA, z zadaniami opracowanymi przez ekspertów branżowych ze średnio 14-letnim doświadczeniem. Wyniki oceny pokazują, że prawie połowa wyników modelu Claude Opus 4.1 jest porównywalna lub lepsza niż w przypadku ekspertów. OpenAI zapowiedziało, że w przyszłości będzie nadal rozszerzać zakres i szczegóły oceny GDPVAL.