讓我給你描繪一下場景。 假設你想讓一個類人機器人為你做一頓美味的晚餐,而你則坐在沙發上看Netflix。 從技術層面來看,這將如何運作,因為類人機器人需要多個大腦來為你做晚餐? 機器人的智能並不是單一的,而是一個AI模塊團隊,結合了緩慢的深思熟慮與快速的反應(系統2 + 系統1設計)。 它的視覺-語言-行動(VLA)模型將認知分為推理模塊和反應控制策略。 由於機器人運行在多腦認知架構上,它會啟動一個專門的“廚師”操作員來處理你的請求,比如用攝像頭巡視廚房,查找食譜,然後指揮它的肢體開始切菜。 這些大腦可以分解為以下操作員。 大腦 #1: 要做一頓美味的晚餐,你需要一個執行規劃者。它解釋你的命令(“準備晚餐”)以確定目標(做意大利麵)。通過自然語言理解,它決定需要哪些子任務(找食材、煮意大利麵、擺桌子等)以及哪些其他大腦應該處理每個任務。 它協調多代理系統:激活視覺、知識和運動的專門模塊。這個深思熟慮的大腦(系統2)做出高層決策,制定方法,並在任何物理動作開始之前分配責任。 大腦 #2: 現在你有了食譜,你需要一些機器人的眼睛和空間意識。它處理攝像頭的反饋,以識別食材、工具及其在廚房中的位置。通過先進的計算機視覺,它看到切菜板、冰箱裡的蔬菜、台面上的刀等。 它構建了環境的3D地圖,並跟蹤相關物體(比如鹽或鍋的位置)。這個感知大腦(系統2)運行速度比反應慢,但為規劃提供準確的場景上下文。通過識別所有相關的部分,它讓機器人在現實世界中獲得知識。 大腦 #3: 這個大腦充當機器人的知識庫和記憶(系統2)。它檢索和解析任務所需的信息,在這種情況下,是合適的食譜和烹飪說明。它可能會查詢在線食譜或其內部數據庫以獲取意大利麵食譜,然後解釋步驟(煮水、切蒜等)。 它回憶起關於廚房的事實(比如香料放在哪裡)和過去的烹飪經驗。本質上,提供語義理解和世界知識。然後將抽象指令(如“焦糖化洋蔥”)計算為具體參數(溫度、時間),以便機器人可以執行,確保計劃符合你的偏好。 大腦 #4: 在目標和環境明確後,我們制定了詳細的計劃。它將高層目標分解為有序的動作和條件步驟。它安排任務(有時並行進行,比如在切菜的同時預熱烤箱)並設定里程碑(水煮開、醬料準備好)。 它還跟蹤進度,並可以在事情發生變化時即時重新規劃(比如某種食材缺失)。然後將這個動作序列交給運動層的大腦執行。另一個系統2的大腦。 大腦 #5: 是時候從系統2架構轉向系統1,將計劃轉化為具體的機器人動作。對於每個動作(如“走到冰箱”或“切胡蘿蔔”),它為機器人的身體和肢體生成適用的軌跡。 這個模塊處理路徑規劃和逆向運動學,計算關節路徑和角度,以便機器人平穩移動而不發生碰撞。它通常應用學到的運動策略(如擴散變換策略)來為複雜任務產生流暢的動作。 如果大腦4說要從冰箱裡取一個鍋,大腦5就會計算出如何讓機器人到達那裡以及如何抓住鍋。在需要時,它協調多個肢體(例如,使用雙手提起重鍋)。高層意圖轉化為硬件和軟件的協同運動。 大腦 #6: 一旦運動計劃設定,就該執行了。這個低層系統1控制大腦驅動機器人的執行器(電機和關節)。它持續讀取傳感器(關節角度、力量、平衡),並發送控制信號以跟隨軌跡。 使用控制回路(PID控制器、模型預測控制等)保持精度,如果機器人開始傾斜或刀具偏離軌跡,它會立即糾正。這些是以毫秒速度運作的反射和精細運動技能。 當機器人切割胡蘿蔔時,大腦6調節力量並調整刀片角度,以獲得均勻的切片而不滑動。這就像系統的潛意識“肌肉記憶”,自動處理低層細節。 大腦 #7: 最後一部分是專注於持續改進。在晚餐準備期間和之後,它分析性能。它是否灑了東西?攪拌時是否太慢? 這個模塊使用強化學習和自我校準來隨著時間的推移更新機器人的模型。機器人的核心技能最初是在大量人類演示和試錯中訓練的,但你需要不斷微調它們。 如果它發現了一種更高效的切丁技術或更好的鏟子握法,它會更新其策略,以便下次晚餐更順利。這個自適應大腦使類人機器人隨著經驗變得更加熟練。 Codec:操作員在行動 Codec的架構如何將這些大腦結合在一起?每個“腦”作為機器人AI系統中的一個獨立操作員模塊運行。Codec的Fabric編排為每個操作員提供了自己的安全、沙盒環境。 這意味著視覺模塊、語言/邏輯模塊、規劃模塊等都在隔離中運行,但通過定義的接口進行通信。 如果一個模塊崩潰或出現錯誤,它不會使整個機器人癱瘓,其他模塊會安全運行。這種模塊化設計也使得在不影響其他模塊的情況下輕鬆更新或更換一個大腦,並根據需要添加新的專門操作員。 這種操作員方法直接支持多腦框架。當你請求晚餐時,機器人的執行大腦(大腦1)可以啟動一個專門的“廚師”操作員來處理該任務,而其他操作員則並行處理感知和控制。 每個操作員僅訪問其所需的資源(例如,食譜代理可能有互聯網訪問權限以獲取說明,而控制代理僅與硬件接口),這提高了安全性。 Codec的模塊化、沙盒設計是所有這些多樣技能協同工作的粘合劑,類似於軟件中的微服務,使類人機器人能夠可靠地處理從頭開始烹飪晚餐等複雜任務。 這就是為什麼$CODEC將成為機器技術的主要基礎設施。
Trissy
Trissy8月23日 18:30
你會看到人形機器人基礎模型持續使用一種受人類認知啟發的系統2 + 系統1風格架構。 如今大多數視覺-語言-動作(VLA)模型都是作為集中式多模態系統構建的,這些系統在單一網絡中處理感知、語言和動作。 Codec的基礎設施非常適合這一點,因為它將每個操作員視為一個沙盒模塊。這意味著你可以並行啟動多個操作員,每個操作員運行自己的模型或任務,同時通過相同的架構保持它們的封裝和協調。 機器人和人形機器人通常有多個大腦,其中一個操作員可能處理視覺處理,另一個處理平衡,另一個進行高層規劃等,這些都可以通過Codec的系統進行協調。 Nvidia的基礎模型Issac GR00T N1使用了兩個模塊的系統2 + 系統1架構。系統2是一個視覺-語言模型(類似於PaLM的版本,多模態),通過機器人的攝像頭觀察世界並聽取指令,然後制定高層計劃。 系統1是一個擴散變換器策略,它將該計劃轉化為實時的連續動作。你可以將系統2視為深思熟慮的大腦,而系統1則是本能的身體控制器。系統2可能輸出類似“移動到紅杯,抓住它,然後將其放在架子上”的指令,而系統1將生成腿和手臂執行每一步的詳細關節軌跡。 系統1在大量軌跡數據(包括人類遙控演示和物理模擬數據)上進行了訓練,以掌握精細動作,而系統2則基於具有互聯網預訓練(用於語義理解)的變換器構建。 這種推理與行動的分離對NVIDIA來說非常強大。這意味著GR00T可以處理需要規劃的長時間任務(得益於系統2),同時也能立即對擾動做出反應(得益於系統1)。 如果一個機器人正在搬運一個托盤,而有人輕推托盤,系統1可以立即糾正平衡,而不是等待較慢的系統2注意到。 GR00T N1是第一個公開可用的機器人基礎模型之一,並迅速獲得了關注。 開箱即用,它在模擬中展示了多項任務的技能,能夠用一隻手或兩隻手抓取和移動物體,在手與手之間傳遞物品,並執行多步驟的任務,而無需任何特定任務的編程。因為它不依賴於單一的體現,開發者展示了它在不同機器人上工作的能力,調整最小。 這對於Helix(Figure的基礎模型)也是如此,它使用了這種類型的架構。Helix允許兩個機器人或多個技能同時操作,Codec可以通過運行多個共享信息的操作員來實現多智能體大腦。 這種“孤立艙”設計意味著每個組件可以專門化(就像系統1與系統2一樣),甚至可以由不同團隊開發,但它們可以協同工作。 這是一種獨特的方法,因為Codec正在構建深層軟件堆棧以支持這種模塊化、分佈式智能,而大多數其他公司只關注AI模型本身。 Codec還利用了大型預訓練模型。如果你在其上構建機器人應用程序,你可能會將OpenVLA或Pi Zero基礎模型作為你的操作員的一部分插入。Codec提供連接器,輕鬆訪問攝像頭數據或機器人API,因此你不必編寫低級代碼來從機器人的攝像頭獲取圖像或向其電機發送速度命令。這一切都被抽象在一個高級SDK後面。 我對Codec如此看好的原因正是我上面所概述的。他們並不追逐敘事,架構旨在成為基礎模型之間的粘合劑,並且無縫支持多大腦系統,這對人形機器人的複雜性至關重要。 因為我們在這個趨勢中還很早,所以值得研究行業領導者的設計並理解它們為何有效。機器技術由於硬件和軟件之間的層次關係而難以理解,但一旦你學會逐步分解每個部分,就會變得容易得多。 現在可能覺得浪費時間,但這正是讓我在AI時代獲得先機的方法,也是我早期參與許多項目的原因。要有紀律,學習哪些組件可以共存,哪些組件無法擴展。 這將在未來幾個月帶來回報。 Deca Trillions ( $CODEC ) 編碼。
7.54K