ورقة OpenAI مهمة: "هل يمكن لماجستير العلوم حل تخمينات الرياضيات السهلة؟ قام الباحثون ببناء "اختبار جودل" لمعرفة ما إذا كان بإمكان GPT-5 إثبات نتائج جديدة وبسيطة مع الحد الأدنى من السياق على 5 تخمينات تحسين جديدة: • شبه صحيح على 3/5 • P2: وجد حلا بديلا صالحا • P4: فشل (مطلوب الجمع بين ورقتين) • P5: فشل (تعذر إنهاء الإثبات)