المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
اسمحوا لي أن أرسم الصورة.
لنفترض أنك تريد أن يطبخ Humanoid عشاءا لذيذا أثناء جلوسك على الأريكة ومشاهدة Netflix.
كيف سيعمل هذا على المستوى الفني لأن Humanoid يتطلب عدة أدمغة لإعداد عشاءك؟
ذكاء الروبوت ليس متجانسا ، ولكنه فريق من وحدات الذكاء الاصطناعي يجمع بين المداولات البطيئة وردود الفعل السريعة (تصميم النظام 2 + النظام 1).
يقسم نموذج الرؤية واللغة والعمل (VLA) الإدراك إلى وحدة تفكير وسياسة تحكم تفاعلية.
نظرا لأن الروبوت يعمل على بنية معرفية متعددة الأدمغة ، فإنه سيدور مشغل "طاه" مخصصا للتعامل مع طلبك ، مثل مسح المطبخ بكاميراته ، والبحث عن وصفة ، ثم توجيه أطرافه لبدء تقطيع الخضار.
يمكن تقسيم هذه الأدمغة إلى المشغلين التاليين.
الدماغ # 1:
لطهي عشاء لذيذ ، تحتاج إلى مخطط تنفيذي. يفسر أمرك ("تحضير العشاء") لتحديد الهدف (صنع المعكرونة). باستخدام فهم اللغة الطبيعية ، فإنه يقرر المهام الفرعية المطلوبة (العثور على المكونات ، وطهي المعكرونة ، وإعداد الطاولة ، وما إلى ذلك) والأدمغة الأخرى التي يجب أن تتعامل مع كل منها.
ينسق نظام الوكلاء المتعددين: تنشيط الوحدات المتخصصة للرؤية والمعرفة والحركة. يتخذ هذا الدماغ التداولي (النظام 2) قرارات عالية المستوى ، ويحدد النهج ، ويخصص المسؤوليات قبل بدء أي حركات جسدية.
الدماغ # 2:
الآن بعد أن حصلت على الوصفة ، ستحتاج إلى بعض عيون الروبوت والوعي المكاني. يعالج موجزات الكاميرا لتحديد المكونات والأدوات ومواقعها في المطبخ. باستخدام رؤية الكمبيوتر المتقدمة ، يرى لوح التقطيع والخضار في الثلاجة والسكين على المنضدة وما إلى ذلك.
يقوم ببناء خريطة ثلاثية الأبعاد للبيئة وتتبع الكائنات ذات الصلة (مثل مكان وجود الملح أو المقالي). يعمل هذا الدماغ الإدراكي (النظام 2) بشكل أبطأ من ردود الفعل ، ولكنه يوفر سياقا دقيقا للمشهد للتخطيط. من خلال التعرف على جميع القطع المعنية ، فإنه يعلم الروبوت في العالم الحقيقي.
الدماغ # 3:
يعمل هذا الدماغ كقاعدة معرفية وذاكرة للروبوت (النظام 2). يقوم باسترداد وتحليل المعلومات اللازمة للمهمة ، في هذه الحالة ، وصفة مناسبة وتعليمات الطهي. قد يستعلم عن كتاب طبخ عبر الإنترنت أو قاعدة بياناته الداخلية للحصول على وصفة المعكرونة ، ثم يفسر الخطوات (غلي الماء ، وتقطيع الثوم ، وما إلى ذلك).
إنه يتذكر حقائق حول المطبخ (مثل مكان حفظ التوابل) وتجارب الطهي السابقة. بشكل أساسي ، توفير الفهم الدلالي والمعرفة العالمية. ثم يحسب التعليمات المجردة (كراميل البصل) إلى معلمات ملموسة (درجة الحرارة ، التوقيت) التي يمكن للروبوت تنفيذها ، مما يضمن توافق الخطة مع تفضيلاتك.
الدماغ # 4:
مع توضيح الهدف والبيئة ، وضعنا خطة لعب مفصلة. يقسم الهدف عالي المستوى إلى إجراءات مرتبة وخطوات مشروطة. يقوم بجدولة المهام (أحيانا بالتوازي ، مثل تسخين الفرن مسبقا أثناء تقطيع الخضار) ويحدد المعالم (الماء المغلي ، الصلصة جاهزة).
كما أنه يتتبع التقدم ويمكنه إعادة التخطيط بسرعة إذا تغير شيء ما (لنفترض أن أحد المكونات مفقود). ثم يقوم بتسليم تسلسل الحركة هذا إلى أدمغة مستوى الحركة للتنفيذ. نظام آخر 2 الدماغ.
الدماغ # 5:
حان الوقت للانتقال من بنية النظام 2 والانتقال إلى النظام 1 ، وترجمة الخطة إلى حركات روبوت ملموسة. لكل إجراء (مثل "المشي إلى الثلاجة" أو "تقطيع الجزر") ، فإنه يولد مسارات قابلة للتطبيق لجسم الروبوت وأطرافه.
تتعامل هذه الوحدة مع تخطيط المسار والحركية العكسية ، وحساب مسارات وزوايا المفاصل بحيث يتحرك الروبوت بسلاسة دون تصادمات. عادة ما يطبق السياسات الحركية المكتسبة (مثل سياسة محول الانتشار) لإنتاج حركات سائلة للمهام المعقدة.
إذا قال Brain 4 لاسترداد قدر من الثلاجة ، فإن Brain 5 يكتشف كيفية الحصول على الروبوت هناك وكيفية الإمساك بالقدر. حيث ينسق أطرافا متعددة عند الحاجة (باستخدام يدين لرفع قدر ثقيل على سبيل المثال). تتحول النية عالية المستوى إلى تقارب بين الأجهزة والبرامج التي تتحرك أثناء الحركة
الدماغ # 6:
بمجرد تعيين خطة الحركة ، حان وقت التنفيذ. يقود هذا الدماغ المنخفض المستوى للتحكم في النظام 1 مشغلات الروبوت (المحركات والمفاصل). يقرأ باستمرار المستشعرات (زوايا المفاصل والقوة والتوازن) ويرسل إشارات التحكم لمتابعة المسار.
باستخدام حلقات التحكم (وحدات تحكم PID ، والتحكم التنبؤي بالنموذج ، إلخ) للحفاظ على الدقة ، إذا بدأ الروبوت في الانقلاب أو انحرف السكين عن مساره ، فإنه يصحح على الفور. هذه هي ردود الفعل والمهارات الحركية الدقيقة التي تعمل بسرعات مللي ثانية.
عندما يقوم الروبوت بتقطيع جزرة ، يقوم Brain 6 بتعديل القوة وضبط زاوية الشفرة للحصول على شرائح موحدة دون الانزلاق. إنها مثل "ذاكرة العضلات" اللاواعية للنظام ، حيث تتعامل مع التفاصيل منخفضة المستوى تلقائيا.
الدماغ # 7:
القطعة الأخيرة تركز على التحسين المستمر. أثناء وبعد إعداد العشاء ، يحلل الأداء. هل انسبت أي شيء؟ هل كان بطيئا جدا في التحريك؟
تستخدم هذه الوحدة التعلم المعزز والمعايرة الذاتية لتحديث نماذج الروبوت بمرور الوقت. تم تدريب المهارات الأساسية للروبوت في البداية على العروض البشرية الضخمة والتجربة والخطأ ، ولكن عليك أن تقوم بضبطها باستمرار.
إذا اكتشفت تقنية تقطيع أكثر كفاءة أو قبضة ملعقة أفضل ، فإنها تقوم بتحديث سياستها بحيث يصبح العشاء التالي أكثر سلاسة. يسمح هذا الدماغ التكيفي للإنسان بأن يصبح أكثر مهارة في الخبرة.
برنامج الترميز: عوامل التشغيل أثناء العمل
كيف تربط بنية برنامج الترميز هذه العقول معا؟ يعمل كل "دماغ" كوحدة عميل منفصلة في نظام الذكاء الاصطناعي للروبوت. يوفر تنسيق النسيج الخاص ببرنامج الترميز لكل مشغل بيئته الآمنة والمعروضة على الحماية.
بمعنى ، تعمل وحدة الرؤية ، ووحدة اللغة / المنطق ، ووحدة التخطيط ، وما إلى ذلك ، بمعزل عن بعضها البعض مع التواصل من خلال واجهات محددة.
إذا تعطلت إحدى الوحدات أو بها أخطاء ، فلن تسقط الروبوت بأكمله ، ويستمر الآخرون في العمل بأمان. يسهل هذا التصميم المعياري أيضا تحديث أو تبديل دماغ واحد دون التأثير على الباقي ، وإضافة مشغلين متخصصين جدد حسب الحاجة.
يدعم نهج المشغل هذا بشكل مباشر إطار عمل الأدمغة المتعددة. عندما تطلب العشاء ، يمكن للدماغ التنفيذي للروبوت (الدماغ 1) أن يدور مشغل "طاه" مخصص لهذه المهمة ، بينما يتعامل المشغلون الآخرون مع الإدراك والتحكم بالتوازي.
كل مشغل لديه حق الوصول فقط إلى الموارد التي يحتاجها (على سبيل المثال قد يكون لدى وكيل الوصفات إمكانية الوصول إلى الإنترنت لجلب التعليمات ، في حين أن عامل التحكم يتفاعل فقط مع الأجهزة) ، مما يحسن السلامة.
تصميم برنامج الترميز المعياري في وضع الحماية هو الغراء لجميع هذه المهارات المتنوعة التي تعمل معا ، على غرار الخدمات المصغرة في البرامج ، مما يمكن الإنسان من التعامل بشكل موثوق مع المهام المعقدة مثل طهي العشاء من الصفر.
هذا هو السبب في أن $CODEC ستكون البنية التحتية الأساسية للروبوتات.


23 أغسطس، 18:30
سترى نماذج تأسيسية ل Humanoids باستمرار باستخدام بنية نمط System 2 + System 1 المستوحاة بالفعل من الإدراك البشري.
تم تصميم معظم نماذج الرؤية واللغة والعمل (VLA) اليوم كأنظمة مركزية متعددة الوسائط تتعامل مع الإدراك واللغة والعمل داخل شبكة واحدة.
تعد البنية التحتية لبرنامج الترميز مثالية لهذا الغرض لأنها تتعامل مع كل عميل كوحدة نمطية في وضع الحماية. بمعنى أنه يمكنك تدوير العديد من العملاء بالتوازي ، كل منهم يدير نموذجه أو مهمته الخاصة ، مع إبقائهم مغلفين ومنسقين من خلال نفس البنية.
عادة ما يكون للروبوتات والبشر بشكل عام أدمغة متعددة ، حيث قد يتعامل عميل واحد مع معالجة الرؤية ، وتوازن مناولة آخر ، وآخر يقوم بتخطيط عالي المستوى وما إلى ذلك ، والتي يمكن تنسيقها جميعا من خلال نظام الترميز.
يستخدم طراز الأساس من Nvidia Issac GR00T N1 بنية نظام 2 + نظام 1. النظام 2 هو نموذج لغة الرؤية (نسخة من PaLM أو ما شابه ذلك ، متعدد الوسائط) يراقب العالم من خلال كاميرات الروبوت ويستمع إلى التعليمات ، ثم يضع خطة عالية المستوى.
النظام 1 هو سياسة محول الانتشار التي تأخذ هذه الخطة وتحولها إلى حركات مستمرة في الوقت الفعلي. يمكنك التفكير في النظام 2 على أنه الدماغ التداولي والنظام 1 باعتباره وحدة التحكم الغريزية في الجسم. قد ينتج النظام 2 شيئا مثل "الانتقال إلى الكوب الأحمر ، وامسكه ، ثم ضعه على الرف" ، وسيقوم النظام 1 بإنشاء مسارات مشتركة مفصلة للساقين والذراعين لتنفيذ كل خطوة بسلاسة.
تم تدريب النظام 1 على أطنان من بيانات المسار (بما في ذلك العروض التوضيحية البشرية التي يتم تشغيلها عن بعد والبيانات المحاكاة الفيزيائية) لإتقان الحركات الدقيقة ، بينما تم بناء النظام 2 على محول مع تدريب مسبق على الإنترنت (للفهم الدلالي).
هذا الفصل بين التفكير مقابل التمثيل قوي جدا بالنسبة ل NVIDIA. هذا يعني أن GR00T يمكنه التعامل مع المهام ذات الأفق الطويل التي تتطلب التخطيط (بفضل النظام 2) وأيضا التفاعل على الفور مع الاضطرابات (بفضل النظام 1).
إذا كان الروبوت يحمل صينية وقام شخص ما بدفع الدرج ، فيمكن للنظام 1 تصحيح التوازن على الفور بدلا من انتظار ملاحظة النظام 2 الأبطأ.
كان GR00T N1 أحد أوائل نماذج أساسات الروبوتات المتاحة بشكل مفتوح ، وسرعان ما اكتسب زخما.
خارج الصندوق ، أظهر مهارة في العديد من المهام في المحاكاة ، ويمكنه الإمساك بالأشياء وتحريكها بيد واحدة أو يدي ، والأشياء اليدوية بين يديها ، وأداء الأعمال المنزلية متعددة الخطوات دون أي برمجة محددة للمهمة. نظرا لأنه لم يكن مرتبطا بتجسيد واحد ، أظهر المطورون أنه يعمل على روبوتات مختلفة بأقل قدر من التعديلات.
هذا ينطبق أيضا على Helix (نموذج أساس Figure) الذي يستخدم هذا النوع من الهندسة المعمارية. يسمح Helix بعمل روبوتين أو مهارات متعددة ، ويمكن أن يمكن برنامج الترميز دماغا متعدد العوامل عن طريق تشغيل العديد من العملاء الذين يشاركون المعلومات.
يعني تصميم "الكبسولة المعزولة" هذا أنه يمكن أن يكون كل مكون متخصصا (تماما مثل النظام 1 مقابل النظام 2) وحتى تطويره من قبل فرق مختلفة ، ومع ذلك يمكنهم العمل معا.
إنه نهج فريد من نوعه بمعنى أن برنامج الترميز يقوم ببناء مجموعة البرامج العميقة لدعم هذا الذكاء المعياري الموزع ، بينما يركز معظم الآخرين فقط على نموذج الذكاء الاصطناعي نفسه.
يستفيد برنامج الترميز أيضا من النماذج الكبيرة المدربة مسبقا. إذا كنت تقوم بإنشاء تطبيق روبوت عليه ، فيمكنك توصيل نموذج أساس OpenVLA أو Pi Zero كجزء من عامل التشغيل الخاص بك. يوفر برنامج الترميز الموصلات ، وسهولة الوصول إلى موجزات الكاميرا أو واجهات برمجة تطبيقات الروبوت ، لذلك لا يتعين عليك كتابة التعليمات البرمجية منخفضة المستوى للحصول على صور من كاميرا الروبوت أو لإرسال أوامر السرعة إلى محركاته. كل ذلك مستخرج خلف SDK عالي المستوى.
أحد الأسباب التي تجعلني متفائلا جدا بشأن برنامج الترميز هو بالضبط ما أوضحته أعلاه. إنهم لا يطاردون الروايات ، فقد تم تصميم الهندسة المعمارية لتكون الغراء بين نماذج الأساس ، وهي تدعم أنظمة الأدمغة المتعددة دون احتكاك ، وهو أمر بالغ الأهمية لتعقيد الإنسان.
نظرا لأننا في وقت مبكر جدا من هذا الاتجاه ، فإن الأمر يستحق دراسة تصميمات قادة الصناعة وفهم سبب عملهم. يصعب فهم الروبوتات بالنظر إلى الطبقات عبر الأجهزة والبرامج ، ولكن بمجرد أن تتعلم تقسيم كل قسم قطعة قطعة ، يصبح من الأسهل بكثير هضمها.
قد يبدو الأمر وكأنه مضيعة للوقت الآن ، ولكن هذه هي نفس الطريقة التي أعطتني السبق أثناء الذكاء الاصطناعي ولماذا كنت في وقت مبكر في العديد من المشاريع. كن منضبطا وتعرف على المكونات التي يمكن أن تتعايش والمكونات التي لا تتوسع فيها.
ستؤتي ثمارها خلال الأشهر المقبلة.
عشاري تريليونات ( $CODEC ) مشفرة.

7.55K
الأفضل
المُتصدِّرة
التطبيقات المفضلة