Google DeepMind giới thiệu Gemini Robotics 1.5, cho phép robot nhận thức, lập kế hoạch, suy nghĩ, sử dụng công cụ và thực hiện các nhiệm vụ phức tạp. Khung tác nhân bao gồm: ⦿ Gemini Robotics-ER 1.5 (VLM): Điều phối lý luận và lập kế hoạch thể hiện cấp cao. ⦿ Gemini Robotics 1.5 (VLA): Chuyển đổi hình ảnh và hướng dẫn được cung cấp bởi ER 1.5 thành hành động.
Mô hình VLA "suy nghĩ trước khi hành động" bằng cách sử dụng một monologue ngôn ngữ tự nhiên đa cấp. Nó phân tích các nhiệm vụ như "phân loại quần áo theo màu" thành các bước (ví dụ: xác định màu sắc, chọn đồ vật, chi tiết các động tác), cải thiện tính minh bạch, độ bền và khả năng thích ứng với các tình huống mới.
Gemini Robotics 1.5 học hỏi từ các tập dữ liệu đa dạng qua các hình thức (ALOHA, Franka hai tay, người máy Apollo), cho phép chuyển giao kỹ năng không cần chuyên môn. Ví dụ, các nhiệm vụ được đào tạo trên một robot có thể hoạt động trên các robot khác, giải quyết tình trạng thiếu dữ liệu và nâng cao hiệu quả.
Gemini Robotics-ER 1.5 thiết lập một tiêu chuẩn mới trong lý luận thân thể, xuất sắc trong các nhiệm vụ không gian, thời gian và ngữ nghĩa như chỉ điểm, ước lượng tiến độ và lập kế hoạch nhiệm vụ. Nó cung cấp lý luận thân thể cấp cao, tổng quát hóa cho một thế giới mở của các đối tượng và cảnh vật.
19,24K