Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Google DeepMind представляет Gemini Robotics 1.5, позволяя роботам воспринимать, планировать, мыслить, использовать инструменты и выполнять сложные задачи. Агентная структура включает в себя: ⦿ Gemini Robotics-ER 1.5 (VLM): Организует высокоуровневое воплощенное рассуждение и планирование. ⦿ Gemini Robotics 1.5 (VLA): Преобразует визуальные данные и инструкции, предоставленные ER 1.5, в действия.

Модель VLA "думает перед тем, как действовать", используя многоуровневый монолог на естественном языке. Она разбивает задачи, такие как "сортировка белья по цвету", на шаги (например, определить цвета, выбрать предметы, детализировать движения), улучшая прозрачность, надежность и адаптивность к новым сценариям.

Gemini Robotics 1.5 обучается на разнообразных наборах данных через воплощения (ALOHA, би-рука Franka, гуманоид Apollo), что позволяет осуществлять перенос навыков без специализации. Например, задачи, обученные на одном роботе, работают на других, что решает проблему нехватки данных и повышает эффективность.

Gemini Robotics-ER 1.5 устанавливает новую планку в воплощенном рассуждении, превосходя в пространственных, временных и семантических задачах, таких как указание, оценка прогресса и планирование задач. Он обеспечивает высокоуровневое воплощенное рассуждение, обобщая для открытого мира объектов и сцен.

25,64K

Топ

Рейтинг

Избранное