一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Google DeepMind 推出 Gemini Robotics 1.5，使機器人能夠感知、計劃、思考、使用工具並執行複雜任務。該代理框架包括： ⦿ Gemini Robotics-ER 1.5 (VLM)：協調高層次的具身推理和計劃。 ⦿ Gemini Robotics 1.5 (VLA)：將 ER 1.5 提供的視覺和指令轉換為行動。

VLA 模型在 "行動前思考"，使用多層次的自然語言獨白。它將任務如 "按顏色分類衣物" 拆解為步驟（例如，識別顏色、挑選物品、詳細動作），提高透明度、穩健性和對新場景的適應能力。

Gemini Robotics 1.5 從多樣化的數據集（ALOHA、雙臂 Franka、Apollo 人形機器人）中學習，使得在不專門化的情況下實現零-shot 技能轉移。例如，在一個機器人上訓練的任務可以在其他機器人上運作，解決數據稀缺問題並提高效率。

Gemini Robotics-ER 1.5 在具身推理方面樹立了新的基準，擅長於指向、進度估算和任務規劃等空間、時間和語義任務。它提供高級的具身推理，能夠推廣到一個開放的物體和場景世界。

22.75K