كسر: تعلن xAI عن Grok 4 "يمكن أن يفكر على مستوى خارق!" إليك كل ما تحتاج إلى معرفته:
يدعي Elon أن Grok 4 أكثر ذكاء من جميع طلاب الدراسات العليا تقريبا في جميع التخصصات في وقت واحد. تدريب أكثر بمقدار 100 مرة من Grok 2. 10 أضعاف الحوسبة على RL أكثر من أي من الطرز الموجودة هناك.
الأداء في امتحان البشرية الأخير إيلون: "Grok 4 هو مستوى ما بعد التخرج في كل شيء!"
تحجيم HLE - التدريب المزيد من الحوسبة ، ذكاء أعلى. (بدون أدوات)
من خلال استدعاء الأداة الأصلية ، يزيد Grok 4 من الأداء بشكل كبير. انظر إلى تلك المنحنيات! من المهم إعطاء الذكاء الاصطناعي الأدوات المناسبة. القياس واضح. مجنون!
الإشارات الموثوقة هي المفتاح لجعل RL يعمل. لا يزال هناك تحدي البيانات. إيلون: "اختبار التفكير النهائي هو الذكاء الاصطناعي الذي يعمل في الواقع."
تحجيم حساب وقت الاختبار تم حل أكثر من 50٪ من المجموعة الفرعية النصية فقط من مشاكل HLE! المنحنيات تزداد سخافة.
Grok 4 هو إصدار الوكيل الفردي. Grok 4 Heavy هو الإصدار متعدد الوكلاء. الأنظمة متعددة الوكلاء ليست مزحة!
يتم استخدام Grok 4 للتنبؤ بأبطال بطولة العالم لهذا العام. هذه هي المهام المثيرة للاهتمام التي تحتاج نماذج التفكير إلى اختبارها. في أحداث العالم الحقيقي الفعلية.
تصور لثقبين أسودين يصطدمان. يستخدم Grok 4 جميع أنواع المراجع مثل الأوراق ، وقراءة ملفات PDF ، والأسباب المتعلقة بتفاصيل المحاكاة ، والبيانات التي يجب استخدامها.
يوضح المثال ملخصا للجدول الزمني/التغييرات وإعلانات الدرجات في HLE. هذا رائع جدا!
أداء متعدد الوسائط أداء Grok 4 Heavy أعلى من Grok 4 ، ولكن يحتاج إلى مزيد من التحسين. إنها إحدى نقاط الضعف ، وفقا للفريق.
الأداء على معايير التفكير. درجة مثالية على AIME25! القفزات مجنونة مقارنة بآخر أفضل نموذج في هذه المهام.
أين تختبر النماذج. متوفر كطبقة SuperGrok Heavy. 30 دولارا / م ل Super Grok 300 دولار / م ل SuperGrok Heavy.
التحديثات الصوتية متضمنة أيضا! يشعر Grok بأنها أكثر سرعة ومصممة لتكون أكثر طبيعية. - 2x أسرع - 5 أصوات - 10 أضعاف ثوان المستخدم يوميا
ARC-AGI Grok 4 على ARC-AGI v2 (مجموعة فرعية خاصة) يكسر حاجز 10٪ (15.9٪). 2x المركز الثاني ، وهو نموذج كلود أوبوس 4.
Grok 4 على مقعد البيع يحصل Grok 4 على المركز # 1. ضعف صافي ثروة كلود أوبوس 4.
تتوفر طرازات Grok 4 عبر واجهة برمجة تطبيقات xAI. نافذة سياق 256 كيلوبايت. البحث عن البيانات في الوقت الفعلي.
Grok 4 للألعاب! فهم الفيديو هو مجال يحسن فيه الفريق ، لذلك سيتحسن.
ماذا بعد؟ سيكون التركيز الذكي والسريع على التركيز. نماذج الترميز هي أيضا تركيز كبير. يأتي أيضا وكلاء أكثر قدرة متعددي الوسائط. نماذج توليد الفيديو تلوح في الأفق أيضا.
@elonmusk وفريق @xai طبخوا حقا مع Grok 4. كل شيء مثير للغاية لرؤية التركيز على الذكاء الاصطناعي للواقع ، والبحث عن الحقيقة ، وفتح الوكلاء متعددي الوسائط بعد ذلك.
بدأت في تجربة Grok 4 ووجدت بالفعل بعض الأشياء المثيرة للاهتمام حولها. أقوم بإعداد مقارنة مفصلة مع نماذج التفكير الأخرى. سأستضيف ورشة عمل حول Grok 4 لأعضاء أكاديميتنا قريبا:
‏‎2.19‏M