لقد ضلل الفتيان المجانين الجميع ب "NATIVE Sparse Attention" ، موضحين بإسهاب كيف أن التناثر اللاحق أمر سيء ومن الضروري التدريب المسبق من الصفر ، وفقط ... تناثرت نقطة تفتيش V3. هل تدرك أن هذا ينطبق بشكل عام على جميع نماذج الكثافة الكثيفة؟