تقدم Google DeepMind Gemini Robotics 1.5 ، مما يمكن الروبوتات من الإدراك والتخطيط والتفكير واستخدام الأدوات والتصرف في المهام المعقدة. يتألف الإطار الوكيلي مما يلي: ⦿ Gemini Robotics-ER 1.5 (VLM): ينسق التفكير والتخطيط المتجسدين عالي المستوى. ⦿ Gemini Robotics 1.5 (VLA): يحول المرئيات والتعليمات التي يوفرها ER 1.5 إلى أفعال.
نموذج VLA "يفكر قبل التصرف" باستخدام مونولوج لغة طبيعية متعدد المستويات. يقسم مهام مثل "فرز الغسيل حسب اللون" إلى خطوات (على سبيل المثال ، تحديد الألوان ، واختيار العناصر ، وحركات التفاصيل) ، وتحسين الشفافية والمتانة والقدرة على التكيف مع السيناريوهات الجديدة.
تتعلم Gemini Robotics 1.5 من مجموعات البيانات المتنوعة عبر التجسيدات (ALOHA ، ثنائي الذراع Franka ، Apollo humanoid) ، مما يتيح نقل المهارات بدون لقطة دون تخصص. على سبيل المثال ، تعمل المهام المدربة على روبوت واحد على الآخرين ، ومعالجة ندرة البيانات وتعزيز الكفاءة.
يضع Gemini Robotics-ER 1.5 معيارا جديدا في التفكير المتجسد ، حيث يتفوق في المهام المكانية والزمانية والدلالية مثل الإشارة وتقدير التقدم وتخطيط المهام. يوفر تفكيرا متجسدا عالي المستوى ، ويعميم على عالم مفتوح من الأشياء والمشاهد.
‏‎25.64‏K