トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
絵を描かせてください。
ソファに座ってNetflixを見ている間、ヒューマノイドにおいしい夕食を作ってもらいたいとします。
ヒューマノイドは夕食を作るのに複数の脳を必要とするため、これは技術レベルでどのように機能しますか?
ロボットの知能は一枚岩ではなく、ゆっくりとした熟考と速い反射神経を組み合わせた AI モジュールのチームです (システム 2 + システム 1 設計)。
その視覚言語行動(VLA)モデルは、認知を推論モジュールと事後制御ポリシーに分割します。
ロボットはマルチブレイン認知アーキテクチャ上で動作しているため、カメラでキッチンを調査したり、レシピを調べたり、手足に野菜切りを始めるように指示したりするなど、専任の「シェフ」オペレーターを起動してリクエストに対応します。
これらの脳は、次の演算子に分解できます。
脳 #1:
おいしい夕食を作るには、エグゼクティブプランナーが必要です。あなたのコマンド (「夕食の準備」) を解釈して、目標 (パスタを作る) を決定します。自然言語理解を使用して、必要なサブタスク (材料を見つける、パスタを調理する、テーブルをセットするなど) と、他のどの脳がそれぞれを処理するかを決定します。
マルチエージェントシステムを調整し、視覚、知識、運動のための特殊なモジュールを活性化します。この熟考的な脳 (システム 2) は、物理的な動きが始まる前に、トップレベルの決定を下し、アプローチをレイアウトし、責任を割り当てます。
脳 #2:
レシピができたので、ロボットの目と空間認識が必要です。カメラ フィードを処理して、食材、道具、キッチン内のそれらの位置を識別します。高度なコンピュータービジョンを使用して、まな板、冷蔵庫の野菜、カウンターの上のナイフなどを確認します。
環境の 3D マップを作成し、関連するオブジェクト (塩やフライパンがどこにあるかなど) を追跡します。この知覚脳 (システム 2) は反射神経よりも遅く動作しますが、計画のための正確なシーンコンテキストを提供します。関係するすべての部分を認識することで、現実世界でロボットを教育します。
脳 #3:
この脳は、ロボットの知識ベースと記憶として機能します (システム 2)。タスクに必要な情報 (この場合は適切なレシピと調理手順) を取得して解析します。オンライン料理本またはその内部データベースにパスタのレシピを照会し、手順(水を沸騰させる、ニンニクを刻むなど)を解釈する場合があります。
キッチンに関する事実(スパイスが保管されている場所など)や過去の料理体験を思い起こさせます。基本的には、意味理解と世界知識を提供します。次に、抽象的な命令 (タマネギをキャラメル化する) を計算して、ロボットが実行できる具体的なパラメーター (温度、タイミング) に計算し、計画がユーザーの好みに合っていることを確認します。
脳 #4:
目標と環境が明確になった上で、詳細なゲームプランを考案しました。高レベルの目標を順序付けられたアクションと条件付きステップに分割します。タスクをスケジュールし (野菜を刻みながらオーブンを予熱するなど、並行して行うこともあります)、マイルストーン (お湯を沸かし、ソースを準備する) を設定します。
また、進捗状況を追跡し、何かが変更された場合 (たとえば、材料が欠落している場合) にその場で再計画を立てることができます。次に、このアクションシーケンスを動作レベルの頭脳に渡して実行します。別のシステム2の脳。
脳 #5:
システム 2 アーキテクチャからシステム 1 に移行し、計画を具体的なロボットの動きに変換する時が来ました。「冷蔵庫まで歩く」や「ニンジンを刻む」など)ごとに、ロボットの体と手足に適用可能な軌道が生成されます。
このモジュールは、パスプランニングとインバースキネマティクスを処理し、ロボットが衝突することなくスムーズに移動できるように、関節の経路と角度を計算します。通常、学習したモーター ポリシー (拡散トランス ポリシーなど) を適用して、複雑なタスクの流体運動を生成します。
ブレイン4が冷蔵庫から鍋を取り出すと言ったら、ブレイン5はロボットをそこに連れて行く方法と鍋をつかむ方法を考え出す。必要に応じて複数の手足を調整する場所(たとえば、両手を使って重い鍋を持ち上げる)。高レベルの意図は、動きのあるハードウェアとソフトウェアの収束に変わります
脳 #6:
モーションプランを設定したら、実行します。この低レベルのシステム1制御頭脳は、ロボットのアクチュエーター(モーターと関節)を駆動します。センサー(関節角度、力、バランス)を連続的に読み取り、制御信号を送信して軌道を追う。
制御ループ(PIDコントローラー、モデル予測制御など)を使用して精度を維持すると、ロボットが傾き始めたり、ナイフがコースから外れたりすると、即座に修正されます。これらは、ミリ秒の速度で動作する反射神経と細かい運動能力です。
ロボットがニンジンをスライスすると、Brain 6 は力を調整し、ブレードの角度を調整して、滑らずに均一なスライスを取得します。これはシステムの潜在意識の「筋肉の記憶」のようなもので、低レベルの詳細を自動的に処理します。
脳 #7:
最後の部分は、継続的な改善に焦点を当てることです。夕食の準備中および調理後に、パフォーマンスを分析します。何かこぼれましたか?かき混ぜるのが遅すぎたのでしょうか?
このモジュールでは、強化学習と自己キャリブレーションを使用して、ロボットのモデルを時間の経過とともに更新します。ロボットのコアスキルは、当初、大規模な人間のデモンストレーションと試行錯誤でトレーニングされましたが、継続的に微調整する必要があります。
より効率的なダイシング技術やより良いヘラグリップを発見した場合、次の夕食がさらにスムーズになるようにポリシーを更新します。この適応脳により、ヒューマノイドは経験によってより熟練することができます。
コーデック: 動作中のオペレーター
コーデックのアーキテクチャは、これらの頭脳をどのように結び付けているのでしょうか?各「頭脳」は、ロボットの AI システム内で個別のオペレーター モジュールとして実行されます。コーデックのファブリックオーケストレーションは、各オペレーターに独自の安全なサンドボックス環境を提供します。
つまり、ビジョンモジュール、言語/ロジックモジュール、計画モジュールなどはすべて独立して実行されますが、定義されたインターフェイスを介して通信します。
1つのモジュールがクラッシュしたりエラーが発生したりしても、ロボット全体がダウンすることはなく、他のモジュールは安全に動作し続けます。また、このモジュラー設計により、残りの頭脳に影響を与えることなく、1つの頭脳を簡単に更新または交換し、必要に応じて新しい専門オペレーターを追加することができます。
この演算子アプローチは、マルチブレインフレームワークを直接サポートします。あなたが夕食をリクエストすると、ロボットのエグゼクティブブレイン(ブレイン1)は、そのタスクに専念する「シェフ」オペレーターをスピンアップし、他のオペレーターは認識と制御を並行して処理します。
各オペレーターは必要なリソースにのみアクセスできるため (たとえば、レシピ エージェントは命令を取得するためにインターネットにアクセスできる場合がありますが、制御エージェントはハードウェアとのみインターフェイスします)、安全性が向上します。
コーデックのモジュール式のサンドボックス設計は、ソフトウェアのマイクロサービスと同様に、これらすべての多様なスキルが連携して連携する接着剤であり、ヒューマノイドが夕食の調理などの複雑なタスクをゼロから確実に処理できるようにします。
これが、$CODECがロボット工学の主要なインフラとなる理由です。


8月23日 18:30
ヒューマノイドの基盤モデルは、実際に人間の認知に触発されたシステム 2 + システム 1 スタイルのアーキテクチャを継続的に使用しています。
今日のほとんどの視覚言語行動 (VLA) モデルは、単一のネットワーク内で知覚、言語、行動を処理する集中型マルチモーダル システムとして構築されています。
コーデックのインフラストラクチャは、各 Operator をサンドボックス モジュールとして扱うため、これに最適です。つまり、複数の Operator を並行してスピンアップし、それぞれが独自のモデルまたはタスクを実行しながら、同じアーキテクチャを通じてカプセル化および調整されたままにすることができます。
一般的にロボットとヒューマノイドには複数の頭脳があり、1人のオペレーターがビジョン処理を処理し、別のオペレーターがバランスを処理し、別のオペレーターが高レベルの計画を行うなど、これらはすべてコーデックのシステムを通じて調整できます。
Nvidia の基盤モデル Issac GR00T N1 は、System 2 + System 1 アーキテクチャの 2 モジュールを使用します。システム2は、ロボットのカメラを通して世界を観察し、指示を聞き、高レベルの計画を立てる視覚言語モデル(PaLMまたは同様のマルチモーダルのバージョン)です。
システム 1 は、その計画をリアルタイムで連続的な動きに変換する拡散トランスフォーマー ポリシーです。システム2は熟議的な脳、システム1は本能的な身体制御者と考えることができます。システム2は「赤いカップに移動してつかんで棚に置く」などを出力し、システム1は脚と腕の詳細な関節軌道を生成して各ステップをスムーズに実行します。
システム 1 は、微細な動きを習得するために大量の軌道データ (人間の遠隔操作デモや物理シミュレーション データを含む) でトレーニングされ、システム 2 はインターネットの事前トレーニング (意味理解のため) を備えたトランスフォーマー上に構築されました。
この推論と行動の分離は、NVIDIA にとって非常に強力です。つまり、GR00Tは計画が必要な長期にわたるタスク(システム2のおかげで)を処理でき、摂動にも即座に反応することができます(システム1のおかげで)。
ロボットがトレイを運んでいて、誰かがトレイを小押しした場合、システム 1 は、遅いシステム 2 が気付くのを待つのではなく、すぐにバランスを修正できます。
GR00T N1は、最初に公開されているロボット工学基盤モデルの1つであり、すぐに注目を集めました。
箱から出してすぐに、シミュレーションの多くのタスクでスキルを発揮し、片手または両手で物体をつかんで動かしたり、両手でアイテムを手で動かしたり、タスク固有のプログラミングなしで複数のステップの雑用を実行したりできます。単一の実施形態に縛られていなかったため、開発者は最小限の調整でさまざまなロボットで動作することを示しました。
これは、このタイプのアーキテクチャを使用するHelix(Figureの基盤モデル)にも当てはまります。Helix では 2 台のロボットまたは複数のスキルが動作し、Codec は情報を共有する複数のオペレーターを実行することでマルチエージェントの頭脳を有効にすることができます。
この「分離されたポッド」設計は、各コンポーネントを特殊化したり(システム1とシステム2のように)、異なるチームによって開発されたりしながら、連携できることを意味します。
これは、Codec がこのモジュール式の分散インテリジェンスをサポートするためのディープ ソフトウェア スタックを構築しているのに対し、他のほとんどの企業は AI モデル自体のみに焦点を当てているという意味で、他に類を見ないアプローチです。
コーデックは、事前トレーニング済みの大規模なモデルも活用します。ロボットアプリケーションを構築する場合は、Operator の一部として OpenVLA または Pi Zero ファウンデーションモデルをプラグインできます。コーデックはコネクタを提供し、カメラフィードやロボットAPIに簡単にアクセスできるため、ロボットのカメラから画像を取得したり、モーターに速度コマンドを送信したりするために低レベルのコードを記述する必要はありません。すべては、高レベルのSDKの背後で抽象化されています。
私がコーデックに強気な理由の 1 つは、まさに上で概説したことです。彼らは物語を追いかけているのではなく、アーキテクチャは基盤モデル間の接着剤となるように構築されており、ヒューマノイドの複雑さにとって重要なマルチブレインシステムを摩擦なくサポートします。
私たちはこの傾向の初期段階にあるため、業界リーダーのデザインを研究し、なぜそれらが機能するのかを理解する価値があります。ロボット工学は、ハードウェアとソフトウェアにまたがる層を考えると理解するのが難しいですが、各セクションを少しずつ分解することを学べば、理解がはるかに簡単になります。
今は時間の無駄のように感じるかもしれませんが、これは AI szn 中に私に有利なスタートを与えてくれたのと同じ方法であり、私がこれほど多くのプロジェクトに早い段階で取り組んだ理由です。規律を守り、どのコンポーネントが共存でき、どのコンポーネントが拡張できないかを学びましょう。
今後数か月で配当が支払われるでしょう。
10兆($CODEC)コード化。

7.54K
トップ
ランキング
お気に入り