المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
البناء مع وكلاء الذكاء الاصطناعي @dair_ai • السابق: Meta الذكاء الاصطناعي ، Galactica LLM ، Elastic ، PaperswithCode ، دكتوراه • أشارك الأفكار حول كيفية البناء مع LLMs & الذكاء الاصطناعي Agents ⬇️
الواقع هو أنه يجب علينا جميعا أن نحاول بناء زميل عمل مثالي للوكلاء لنا.
يشير Cowork من أنثروبيك إلى موجة جديدة من أدوات تنسيق الوكلاء في الأفق.
الأمر لا يتعلق فقط بجعل استخدام كود كلود سهلا.
برأيي، الأمر يتعلق أكثر ببناء واجهات بديهية للتفاعل والإدارة وتنسيق الوكلاء ليكونوا أكثر إنتاجية مع الذكاء الاصطناعي.
هناك مجال للابتكار في كيفية حدوث التواصل من الإنسان إلى الوكيل (والعكس صحيح). وأعني في كل مكان وكل مجال يمكنك تخيله.
مع ظهور المهارات والإضافات، يمكن لأي شخص بناء تجارب قوية مع هذه الوكلاء والأدوات. لا تحتاج لأن تكون تقنيا لتغيير مهاراتك وبناء مهارات إبداعية ومفيدة للغاية (سواء للعمل أو مشروع شخصي أو حتى شركة ناشئة). يجب أن يكون لديك ذوق جيد في المجال الذي تديره، وأن تولي اهتماما كبيرا لتقنيات الذكاء الاصطناعي الناشئة، وأن تجرب بلا هوادة، وتبني السياق، وتبني بعقلية تراكمية.
أوقات مثيرة قادمة. حان وقت البناء!

44
هل تستحق Agentic RAG العناء؟
تطورت أنظمة RAG من خطوط أنابيب بسيطة تعتمد على المولدات المسترجعة إلى سير عمل متقدم. لا يزال من غير الواضح متى تستخدم Enhanced RAG (خطوط أنابيب ثابتة مع وحدات مخصصة) مقابل Agentic RAG (حيث يقوم LLM بتنسيق العملية بأكملها بشكل ديناميكي).
توفر هذه الدراسة أول مقارنة تجريبية.
يضيف Enhanced RAG مكونات محددة مسبقا لمعالجة نقاط ضعف محددة: أجهزة توجيه لتحديد ما إذا كانت هناك حاجة للاسترجاع، وأجهزة إعادة كتابة الاستعلام لتحسين المحاذاة، وأجهزة إعادة ترتيب لتحسين اختيار المستندات. سير العمل ثابت ومصمم يدويا.
تتبع Agentic RAG نهجا مختلفا. يقرر نموذج اللغة الكبيرة أي الإجراءات يجب تنفيذها، ومتى يجب تنفيذها، وما إذا كان يجب تكرارها. لا توجد مكونات إضافية سوى قاعدة المعرفة الأساسية، والاسترجاع، والمولد. النموذج يتحكم في كل شيء.
قام الباحثون بتقييم النموذجين عبر أربعة أبعاد في مهام ضمان الجودة واسترجاع المعلومات.
التعامل مع نوايا المستخدم: يتفوق العامل قليلا على المحسن في معظم المهام، لكن المعزز يفوز بشكل حاسم في التقييم العالي (+28.8 نقطة F1)، حيث غالبا ما يستعيد الوكيل المكافآت دون داع.
إعادة كتابة الاستعلام: يحقق RAG الوكلاء متوسط NDCG@10 55.6 مقارنة ب 52.8 للاستعلامات المحسنة، مما يظهر أن الوكيل يمكنه إعادة كتابة الاستعلامات بشكل تكيفي عندما يكون ذلك مفيدا.
تحسين المستندات: معدل RAG المحزن مع إعادة الترتيب (49.5 NDCG@10) يتفوق على Agentic (43.9). وحدات إعادة ترتيب مخصصة تتفوق على محاولات الاسترجاع التكرارية.
Agentic RAG أكثر حساسية بكثير لقدرات النماذج. مع النماذج الأضعف، يحافظ Enhanced RAG على الاستقرار بينما يتدهور أداء Agentic بشكل كبير.
يكشف تحليل التكاليف أن Agentic RAG يتطلب وقتا حسابيا ورمزا إضافيين بمقدار 2-10 مرات بسبب التفكير متعدد الخطوات.
الاختيار بين Enhanced RAG وAgentic RAG يعتمد على قيودك. يوفر التحليل المغناطيسي المحسن قابلية للتنبؤ وتكاليف أقل واستقرارا مع نماذج أضعف. يوفر RAG الوكيل مرونة لكنه يتطلب نماذج أقوى وحوسبة أكبر.
الورقة:
تعلم كيفية بناء أنظمة RAG الوكلاء الفعالة في أكاديميتنا:

92
حل ذاكرة بسيط للمهام طويلة الأفق.

DAIR.AI15 يناير، 22:22
إدارة الذاكرة الذاتية في وكلاء نماذج اللغة الكبيرة
يواجه وكلاء نماذج اللغة الكبيرة صعوبة في مهام الأفق البعيد بسبب تضخم السياق.
مع نمو تاريخ التفاعل، ترتفع التكاليف الحاسوبية، ويزداد الكمون، ويتدهور التفكير بسبب التشتت بسبب أخطاء سابقة غير ذات صلة.
النهج القياسي هو الإضافة فقط: كل فكرة، وكل نداء أداة، واستجابة تتراكم بشكل دائم. هذا يعمل للمهام القصيرة لكنه يضمن الفشل في الاستكشاف المعقد.
يقدم هذا البحث Focus، وهو عمارة مركزة على الوكلاء مستوحاة من عفن الوحل (Physarum polycephalum). البصيرة البيولوجية: الكائنات لا تحتفظ بسجلات كاملة لكل حركة في المتاهة. يحتفظون بالخريطة المكتسبة.
يمنح التركيز الوكلاء بدائيين جديدين: start_focus و complete_focus. يقرر الوكيل بشكل مستقل متى يدمج التعلمات في كتلة معرفة مستمرة ويقص تاريخ التفاعل الخام بنشاط. لا مؤقتات خارجية أو قواعد إرشادية تفرض الضغط.
يعلن عن ما تحقق فيه، ويستكشفه باستخدام الأدوات القياسية، ثم يجمع من خلال تلخيص ما تم المحاولة، وما تم تعلمه، والنتيجة. يرفق النظام هذا إلى كتلة معرفة دائمة ويحذف كل شيء بين نقطة التحقق والخطوة الحالية.
هذا يحول السياق المتزايد بشكل رتيب: النمو أثناء الاستكشاف، والانهيار أثناء التماسك.
أظهر تقييم SWE-bench Lite مع كلود هايكو 4.5 أن Focus حقق تخفيضا بنسبة 22.7٪ في الرموز (من 14.9 مليون إلى 11.5 مليون رمز) مع الحفاظ على نفس الدقة (60٪ لكل من Basic Token وFocus). أظهرت الحالات الفردية توفيرا يصل إلى 57٪.
التحفيز العدواني مهم. التوجيه السلبي أعطى فقط 6٪ من التوفير. تعليمات صريحة للضغط كل 10-15 استدعاء للأدوات، مع تذكيرات النظام، زادت الضغطات من 2.0 إلى 6.0 لكل مهمة.
يمكن للنماذج القادرة تنظيم سياقها ذاتيا بشكل مستقل عند تزويدها بالأدوات والتوجيه المناسبين، مما يفتح مسارات للأنظمة الوكالية الواعية بالتكلفة دون التضحية بأداء المهام.
الورقة:
تعلم كيفية بناء وكلاء الذكاء الاصطناعي الفعالين في أكاديميتنا:

5
الأفضل
المُتصدِّرة
التطبيقات المفضلة
