トリシーほどロボティクス×AIの物語に深く関わっている人を見たことがありません 幸いなことに、私は彼の自閉症が始まったときに多額の割り当てをすることを知っています コード化されたコーデック
Trissy
Trissy22時間前
ヒューマノイドの基盤モデルは、実際に人間の認知に触発されたシステム 2 + システム 1 スタイルのアーキテクチャを継続的に使用しています。 今日のほとんどの視覚言語行動 (VLA) モデルは、単一のネットワーク内で知覚、言語、行動を処理する集中型マルチモーダル システムとして構築されています。 コーデックのインフラストラクチャは、各 Operator をサンドボックス モジュールとして扱うため、これに最適です。つまり、複数の Operator を並行してスピンアップし、それぞれが独自のモデルまたはタスクを実行しながら、同じアーキテクチャを通じてカプセル化および調整されたままにすることができます。 一般的にロボットとヒューマノイドには複数の頭脳があり、1人のオペレーターがビジョン処理を処理し、別のオペレーターがバランスを処理し、別のオペレーターが高レベルの計画を行うなど、これらはすべてコーデックのシステムを通じて調整できます。 Nvidia の基盤モデル Issac GR00T N1 は、System 2 + System 1 アーキテクチャの 2 モジュールを使用します。システム2は、ロボットのカメラを通して世界を観察し、指示を聞き、高レベルの計画を立てる視覚言語モデル(PaLMまたは同様のマルチモーダルのバージョン)です。 システム 1 は、その計画をリアルタイムで連続的な動きに変換する拡散トランスフォーマー ポリシーです。システム2は熟議的な脳、システム1は本能的な身体制御者と考えることができます。システム2は「赤いカップに移動してつかんで棚に置く」などを出力し、システム1は脚と腕の詳細な関節軌道を生成して各ステップをスムーズに実行します。 システム 1 は、微細な動きを習得するために大量の軌道データ (人間の遠隔操作デモや物理シミュレーション データを含む) でトレーニングされ、システム 2 はインターネットの事前トレーニング (意味理解のため) を備えたトランスフォーマー上に構築されました。 この推論と行動の分離は、NVIDIA にとって非常に強力です。つまり、GR00Tは計画が必要な長期にわたるタスク(システム2のおかげで)を処理でき、摂動にも即座に反応することができます(システム1のおかげで)。 ロボットがトレイを運んでいて、誰かがトレイを小押しした場合、システム 1 は、遅いシステム 2 が気付くのを待つのではなく、すぐにバランスを修正できます。 GR00T N1は、最初に公開されているロボット工学基盤モデルの1つであり、すぐに注目を集めました。 箱から出してすぐに、シミュレーションの多くのタスクでスキルを発揮し、片手または両手で物体をつかんで動かしたり、両手でアイテムを手で動かしたり、タスク固有のプログラミングなしで複数のステップの雑用を実行したりできます。単一の実施形態に縛られていなかったため、開発者は最小限の調整でさまざまなロボットで動作することを示しました。 これは、このタイプのアーキテクチャを使用するHelix(Figureの基盤モデル)にも当てはまります。Helix では 2 台のロボットまたは複数のスキルが動作し、Codec は情報を共有する複数のオペレーターを実行することでマルチエージェントの頭脳を有効にすることができます。 この「分離されたポッド」設計は、各コンポーネントを特殊化したり(システム1とシステム2のように)、異なるチームによって開発されたりしながら、連携できることを意味します。 これは、Codec がこのモジュール式の分散インテリジェンスをサポートするためのディープ ソフトウェア スタックを構築しているのに対し、他のほとんどの企業は AI モデル自体のみに焦点を当てているという意味で、他に類を見ないアプローチです。 コーデックは、事前トレーニング済みの大規模なモデルも活用します。ロボットアプリケーションを構築する場合は、Operator の一部として OpenVLA または Pi Zero ファウンデーションモデルをプラグインできます。コーデックはコネクタを提供し、カメラフィードやロボットAPIに簡単にアクセスできるため、ロボットのカメラから画像を取得したり、モーターに速度コマンドを送信したりするために低レベルのコードを記述する必要はありません。すべては、高レベルのSDKの背後で抽象化されています。 私がコーデックに強気な理由の 1 つは、まさに上で概説したことです。彼らは物語を追いかけているのではなく、アーキテクチャは基盤モデル間の接着剤となるように構築されており、ヒューマノイドの複雑さにとって重要なマルチブレインシステムを摩擦なくサポートします。 私たちはこの傾向の初期段階にあるため、業界リーダーのデザインを研究し、なぜそれらが機能するのかを理解する価値があります。ロボット工学は、ハードウェアとソフトウェアにまたがる層を考えると理解するのが難しいですが、各セクションを少しずつ分解することを学べば、理解がはるかに簡単になります。 今は時間の無駄のように感じるかもしれませんが、これは AI szn 中に私に有利なスタートを与えてくれたのと同じ方法であり、私がこれほど多くのプロジェクトに早い段階で取り組んだ理由です。規律を守り、どのコンポーネントが共存でき、どのコンポーネントが拡張できないかを学びましょう。 今後数か月で配当が支払われるでしょう。 10兆($CODEC)コード化。
4.69K