我还没见过有人像Trissy一样深入探讨机器人与人工智能的叙事。 幸运的是,我知道在他表现出自闭症特征时要大量投资。 Codec编码
Trissy
Trissy22 小时前
你会看到人形机器人基础模型持续使用一种受人类认知启发的系统2 + 系统1风格架构。 如今大多数视觉-语言-动作(VLA)模型都是作为集中式多模态系统构建的,这些系统在单一网络中处理感知、语言和动作。 Codec的基础设施非常适合这一点,因为它将每个操作员视为一个沙盒模块。这意味着你可以并行启动多个操作员,每个操作员运行自己的模型或任务,同时通过相同的架构保持它们的封装和协调。 机器人和人形机器人通常有多个大脑,其中一个操作员可能处理视觉处理,另一个处理平衡,另一个进行高层规划等,这些都可以通过Codec的系统进行协调。 Nvidia的基础模型Issac GR00T N1使用了两个模块的系统2 + 系统1架构。系统2是一个视觉-语言模型(类似于PaLM的版本,多模态),通过机器人的摄像头观察世界并听取指令,然后制定高层计划。 系统1是一个扩散变换器策略,它将该计划转化为实时的连续动作。你可以将系统2视为深思熟虑的大脑,而系统1则是本能的身体控制器。系统2可能输出类似“移动到红杯,抓住它,然后将其放在架子上”的指令,而系统1将生成腿和手臂执行每一步的详细关节轨迹。 系统1在大量轨迹数据(包括人类遥控演示和物理模拟数据)上进行了训练,以掌握精细动作,而系统2则基于具有互联网预训练(用于语义理解)的变换器构建。 这种推理与行动的分离对NVIDIA来说非常强大。这意味着GR00T可以处理需要规划的长时间任务(得益于系统2),同时也能立即对扰动做出反应(得益于系统1)。 如果一个机器人正在搬运一个托盘,而有人轻推托盘,系统1可以立即纠正平衡,而不是等待较慢的系统2注意到。 GR00T N1是第一个公开可用的机器人基础模型之一,并迅速获得了关注。 开箱即用,它在模拟中展示了多项任务的技能,能够用一只手或两只手抓取和移动物体,在手与手之间传递物品,并执行多步骤的任务,而无需任何特定任务的编程。因为它不依赖于单一的体现,开发者展示了它在不同机器人上工作的能力,调整最小。 这对于Helix(Figure的基础模型)也是如此,它使用了这种类型的架构。Helix允许两个机器人或多个技能同时操作,Codec可以通过运行多个共享信息的操作员来实现多智能体大脑。 这种“孤立舱”设计意味着每个组件可以专门化(就像系统1与系统2一样),甚至可以由不同团队开发,但它们可以协同工作。 这是一种独特的方法,因为Codec正在构建深层软件堆栈以支持这种模块化、分布式智能,而大多数其他公司只关注AI模型本身。 Codec还利用了大型预训练模型。如果你在其上构建机器人应用程序,你可能会将OpenVLA或Pi Zero基础模型作为你的操作员的一部分插入。Codec提供连接器,轻松访问摄像头数据或机器人API,因此你不必编写低级代码来从机器人的摄像头获取图像或向其电机发送速度命令。这一切都被抽象在一个高级SDK后面。 我对Codec如此看好的原因正是我上面所概述的。他们并不追逐叙事,架构旨在成为基础模型之间的粘合剂,并且无缝支持多大脑系统,这对人形机器人的复杂性至关重要。 因为我们在这个趋势中还很早,所以值得研究行业领导者的设计并理解它们为何有效。机器人技术由于硬件和软件之间的层次关系而难以理解,但一旦你学会逐步分解每个部分,就会变得容易得多。 现在可能觉得浪费时间,但这正是让我在AI时代获得先机的方法,也是我早期参与许多项目的原因。要有纪律,学习哪些组件可以共存,哪些组件无法扩展。 这将在未来几个月带来回报。 Deca Trillions ( $CODEC ) 编码。
4.69K