يتحدث فريق Buttercup .@trailofbits عن إستراتيجيتنا للمنافسة الآن ، على مسرح AIxCC. ها هو فريقنا الأساسي (8 أشخاص أساسيين + ~ 3 مرتزقة):
استراتيجياتنا المبادئ التوجيهية. TLDR تستخدم أفضل أداة للوظيفة. لا تتوقع أن تكون LLMs جيدة بطريقة سحرية في الأشياء التي نعرف أنها ليست كذلك.
كان تصميم الحوذان الأصلي أكثر تعقيدا إلى حد كبير. تم تقليصها للامتثال للقواعد ، ومراعاة قيود الموارد من فريقنا.
لقد قمنا بعمل جيد بشكل كبير في الدور نصف النهائي ، وسجلنا العديد من الدماء الأولى ، لكن مكتشف أخطاء Java الخاص بنا انكسر وما زلنا لا نعرف السبب!
أثبتت الدور نصف النهائي صحة نهجنا العام ، لكنها كانت بحاجة إلى تعديل لاستيعاب الزيادة الهائلة في حجم النهائيات. ألقينا النموذج الأولي بعيدا وبدأنا من الصفر للنهائيات.
عمل هنريك على المنسق: كيف وماذا ومتى يتم التقديم إلى واجهة برمجة تطبيقات المسابقة. قررنا أن نطلب دائما PoV لزيادة ثقتنا في التقديمات.
عمل Run على محرك اكتشاف الثغرات الأمنية الخاص بنا. استخدمنا زغبات oss-fuzz القياسية. استخدمنا مجموعة مشتركة حيث ساعدت LLMs الزغب في الحصول على تغطية.
عمل رونالد على محرك اكتشاف الثغرات الأمنية لدينا. استخدمنا زغبات oss-fuzz القياسية. استخدمنا مجموعة مشتركة حيث ساعدت LLMs الزغب في الحصول على تغطية.
عمل رونالد على محرك اكتشاف الثغرات الأمنية لدينا. استخدمنا زغبات oss-fuzz القياسية. استخدمنا مجموعة مشتركة حيث ساعدت LLMs الزغب في الحصول على تغطية.
الرقع هو نظام متعدد الوكلاء ، 6 كيلو بايت من التعليمات البرمجية ، LangChain / LangGraph ، مع GPT-4.1 غير منطقي. يحدد عامل الأمان الأسباب الجذرية، ويجد عامل المهندس تعليمات الاختبار، ثم يقوم وكيل ضمان الجودة بتصحيح ويتحقق من صحته. إذا فشلت ، يقوم عامل Reflection بضبط الإستراتيجية.
في جولات المعرض ، سجلنا أولا في الجولة 1 ، وتحطمنا بقوة في 2 ، وارتدنا مرة أخرى في 3. لقد كنا موفرين للموارد في الجولة 1 ، باستخدام 1 ألف دولار فقط من ميزانية LLM بقيمة 30 ألف دولار. الجولة 2 كان لدينا خطأ مطبعي بسيط أدى إلى تحطيم كل شيء.
في الجولة المسجلة ، وجدنا الكثير من الأخطاء بميزانية محدودة (نصف المتاحة) ، بدقة عالية ، وسجلنا نتائج جيدة في جميع المهام. وجدنا أيضا خطأ واحدا على الأقل لم يفعله أي شخص آخر من CRS ، مما يدل على أننا غطينا أرضية جديدة.
كيف سجلنا هذا الهدف؟ كان لدينا دقة بنسبة 90٪ ، وسجلنا في جميع المهام ، وقمنا بعمل تصحيحات عالية الجودة لجميع الأخطاء لدينا.
لقد أمضينا الشهر الماضي في صنع نسخة مصغرة من الحوذان التي تعمل على الكمبيوتر المحمول الخاص بك. نعتزم الحفاظ عليها بجزء من المكاسب. إنه مفتوح المصدر الآن!
‏‎3.97‏K