هل المحاذاة عبر الإنترنت هي المسار الوحيد الذي يجب اتباعه على الرغم من كونها بطيئة ومكلفة من الناحية الحسابية؟ مستوحاة من نظرية العملاء المحتملين ، نقدم تفسيرا يركز على الإنسان لسبب تفوق المحاذاة عبر الإنترنت (مثل GRPO) على المحاذاة دون اتصال بالإنترنت (مثل DPO و KTO) ونوضح تجريبيا كيفية سد الفجوة عبر الإنترنت وغير المتصلة بالإنترنت مع Humanline ، وهو تصميم بسيط ولكنه فعال باستمرار من جزأين. 💡النتيجة الرئيسية: يمكن أن يؤدي تطبيق الخط البشري فوق الأهداف غير المتصلة بالإنترنت على قدم المساواة مع نظرائهم عبر الإنترنت في كل من اتباع التعليمات والتفكير الرياضي. مكاسب متسقة عبر الأهداف المختلفة وعائلات النماذج وأحجام النماذج! المزيد في المواضيع 🧵