التقرير الفني ل @Meituan_LongCat LongCat-Flash جيد للغاية ومليء بالحداثة. النموذج عبارة عن وزارة تربية وتعليم نشطة 560B سلبية ~ 27B مع عدد تكيفي من المعلمات النشطة اعتمادا على السياق بفضل خبير الحساب الصفر. 1) الهندسة المعمارية الجديدة تحتوي > Layers على كتلتين من Attention و FFN و MoE ، وبهذه الطريقة يمكنك تداخل 2 coms الشاملة. (كما أنها 28 طبقة فقط ولكن عليك أن تأخذ في الاعتبار كتلتي الانتباه). > يضيفون الخبير الحسابي الصفري الذي يمكن للرموز المميزة اختياره وعدم القيام بأي شيء ، مثل "الحوض" للرموز المميزة السهلة. > بالنسبة لموازنة التحميل ، لديهم خسارة aux تشبه dsv3 مجانا لتعيين متوسط الخبير الحقيقي / المزيف لكل رمز مميز. يطبقون جدول اضمحلال على تحديث التحيز هذا. كما أنهم يقومون بالتحكم في توازن الخسارة. 2) التحجيم > قاموا بإجراء تغييرات على MLA / MoE للحصول على محاذاة التباين عند البداية. المكاسب مثيرة للإعجاب في الشكل 5 ، لكنني لا أعرف إلى أي مدى سيكون لهذا التأثير لاحقا. > نمو النموذج في الأمر رائع جدا ، فإنهم يقومون أولا بتدريب نموذج أصغر بمقدار 2x ثم "عندما يتم تدريبه بشكل كاف" (غير واضح بعض الشيء هنا عدد الرموز المميزة B) يقومون بإدخال النموذج النهائي بمجرد تكديس طبقات النموذج الأصغر. > استخدموا @_katieeverett @Locchiu و al. الورق لنقل المعلمات الفائقة مع SP بدلا من muP للنموذج الأصغر 2x ig. 3) الاستقرار > يتتبعون نسبة معيار التدرج وتشابه جيب التمام بين الخبراء لضبط وزن خسارة موازنة الحمل (يوصون بنسبة معيار التدرج <0.1). > لتجنب عمليات التنشيط الكبيرة ، يقومون بتطبيق خسارة z على الحالة المخفية ، مع coef صغير جدا (بديل آخر ل qk-clip / norm). > قاموا بتعيين Adam epsilon على 1e-16 وأظهروا أنك تريده أن يكون أقل من نطاق RMS المتدرج. 4) أخرى > يتدربون على رموز 20T للمرحلة 1 ، و "T متعددة من الرموز المميزة" للتدريب المتوسط على بيانات STEM / الكود (70٪ من الخليط) ، و 100B لتمديد السياق الطويل بدون خيوط (80B ل 32k ، و 20B ل 128k). تمثل مستندات السياق الطويل 25٪ من الخليط (لست متأكدا مما إذا كانت النسبة المئوية للمستندات أو الرموز المميزة ، والتي تتغير كثيرا هنا). > مسار بيانات التدريب المسبق هو استخراج السياق ، وتصفية الجودة ، والتراجع عن البيانات. > ملحق لطيف حيث يظهرون أنهم يقارنون top_k المطلوبة لمعايير مختلفة (MMLU أعلى مع 8.32 ، وأقل GSM8K مع 7.46). كما أنها تقارن تخصيص الرمز المميز في الطبقات العميقة / الضحلة. > يطلقون معيارين جديدين Meeseek (متعدد المنعطفات IF) و VitaBench (سيناريو الأعمال في العالم الحقيقي). > الكثير من التفاصيل في البنية التحتية / الاستدلال مع معلومات حول قبول فك التشفير التخميني ، والتكميم ، والنشر ، وتحسين النواة ، وتداخل coms ، وما إلى ذلك. > قائمة الورق المرتبط المختلفة في الخيط 🧵
‏‎101.68‏K