تطور التعلم قليل اللقطات لدراسات القانون الحديثة باستخدام @NethermindEth AuditAgent كمثال. أدناه يمكنك رؤية رسم بياني مثير للاهتمام ، أو بالأحرى مقارنة بين عدد الثغرات الأمنية التي تم تحديدها بشكل صحيح بواسطة منتجنا مقارنة بشركات LLMs الجاهزة مثل @OpenAI GPT-5 أو @AnthropicAI Claude Opus 4.1 أو @Google Gemini 2.5 Pro أو @xai Grok-4. بالطبع ، الجزء الواضح من هذه المقارنة ، الذي أظهرته عدة مرات من قبل ولا يوجد شيء جديد فيه ، هو أن الوكيل المتخصص سيتفوق دائما على حل الأغراض العامة. يتم تفسير هذا الموقف بسهولة تامة من خلال حقيقة أن جميع الحلول للأغراض العامة هي جزء من حلنا المتخصص ، على الرغم من أن المساهمة الأكبر في النتيجة تأتي من إدارة السياق المناسبة أو ما @karpathy أطلق عليه مؤخرا "هندسة السياق". بالإضافة إلى ذلك ، فإن استخدام الأدوات الصحيحة واختيارها - سيواجه نموذج الأغراض العامة دائما مشاكل نظرا لوجود مليارات الأدوات وتعلم استخدامها جميعا هو مهارة كبيرة منفصلة ، بينما نقوم بتعليم نموذجنا المتخصص هذا صراحة. ثم هناك استخدام قواعد المعرفة الصحيحة وخوارزميات البحث المناسبة لهم ، وما إلى ذلك. لذلك بطريقة أو بأخرى ، نفعل كل ما هو ممكن ، ونستخدم جميع الأدوات الممكنة للتغلب على هذه الحلول للأغراض العامة. لكن الفارق الدقيق المثير للاهتمام الذي أردت لفت الانتباه إليه هو أنه إذا نظرت إلى الصورة التي نشرتها قبل عام أو نحو ذلك ، فإن أفضل الحلول الجاهزة كانت OpenAI أو نماذج Anthropic مع ملصق "تعلم اللقطات القليلة" ، بينما الآن جميع الحلول الجاهزة هي الفانيليا. وقد حدث هذا التغيير تدريجيا مع ظهور المنطق على هذا النحو في النماذج ومع تحسين جودته. الاستنتاج الذي يمكن استخلاصه هو أن أمثلة الحلول الصحيحة الجاهزة التي يتلقاها النموذج منا كتعلم في السياق ، عندما نعرضها حرفيا في الموجه ، توقف عن المساعدة في حل المهمة ، أو بتعبير أدق ، بدونها النموذج الذي يمكن أن يحل المشكلة بشكل أفضل. أي أننا نحد إلى حد ما من قدراتها من خلال إظهار العديد من الأمثلة التي اخترناها. بالإضافة إلى ذلك ، هناك جانب مثير للاهتمام وهو أن النماذج التي تتمتع بإمكانية الوصول إلى الإنترنت والاختيار التلقائي لهذه الأداة تبدأ أيضا في التفوق على كل شيء ، مما يعني أن النموذج يمكن أن ينتقل إلى الإنترنت نفسه ويصوغ السياق المناسب لنفسه. نعم ، بالطبع هناك خطر من أن يجد النموذج الإجابة الصحيحة ، ولكن بطبيعة الحال نحن نعمل على وجه التحديد مع هذا ، فنقوم بوضع القائمة السوداء للمواقع وما إلى ذلك ، لذلك نحاول عدم الحصول على مثل هذا التسرب في البيانات (القياس الصحيح هو المفتاح بشكل عام). لكن الاتجاه مثير للاهتمام - أصبحت النماذج أكثر ذكاء وتتعامل مع المزيد والمزيد من مكونات الحل نفسها ، ولا تتطلب من المطورين إجراء إعدادات معينة بشكل صريح في السياق. ما هي تجربتك مع هذا؟
‏‎521‏