Google DeepMind 推出 Gemini Robotics 1.5,使機器人能夠感知、計劃、思考、使用工具並執行複雜任務。 該代理框架包括: ⦿ Gemini Robotics-ER 1.5 (VLM):協調高層次的具身推理和計劃。 ⦿ Gemini Robotics 1.5 (VLA):將 ER 1.5 提供的視覺和指令轉換為行動。
VLA 模型在 "行動前思考",使用多層次的自然語言獨白。 它將任務如 "按顏色分類衣物" 拆解為步驟(例如,識別顏色、挑選物品、詳細動作),提高透明度、穩健性和對新場景的適應能力。
Gemini Robotics 1.5 從多樣化的數據集(ALOHA、雙臂 Franka、Apollo 人形機器人)中學習,使得在不專門化的情況下實現零-shot 技能轉移。 例如,在一個機器人上訓練的任務可以在其他機器人上運作,解決數據稀缺問題並提高效率。
Gemini Robotics-ER 1.5 在具身推理方面樹立了新的基準,擅長於指向、進度估算和任務規劃等空間、時間和語義任務。 它提供高級的具身推理,能夠推廣到一個開放的物體和場景世界。
22.75K