让我给你描绘一下场景。 假设你想让一个类人机器人为你做一顿美味的晚餐,而你则坐在沙发上看Netflix。 从技术层面来看,这将如何运作,因为类人机器人需要多个大脑来为你做晚餐? 机器人的智能并不是单一的,而是一个AI模块团队,结合了缓慢的深思熟虑与快速的反应(系统2 + 系统1设计)。 它的视觉-语言-行动(VLA)模型将认知分为推理模块和反应控制策略。 由于机器人运行在多脑认知架构上,它会启动一个专门的“厨师”操作员来处理你的请求,比如用摄像头巡视厨房,查找食谱,然后指挥它的肢体开始切菜。 这些大脑可以分解为以下操作员。 大脑 #1: 要做一顿美味的晚餐,你需要一个执行规划者。它解释你的命令(“准备晚餐”)以确定目标(做意大利面)。通过自然语言理解,它决定需要哪些子任务(找食材、煮意大利面、摆桌子等)以及哪些其他大脑应该处理每个任务。 它协调多代理系统:激活视觉、知识和运动的专门模块。这个深思熟虑的大脑(系统2)做出高层决策,制定方法,并在任何物理动作开始之前分配责任。 大脑 #2: 现在你有了食谱,你需要一些机器人的眼睛和空间意识。它处理摄像头的反馈,以识别食材、工具及其在厨房中的位置。通过先进的计算机视觉,它看到切菜板、冰箱里的蔬菜、台面上的刀等。 它构建了环境的3D地图,并跟踪相关物体(比如盐或锅的位置)。这个感知大脑(系统2)运行速度比反应慢,但为规划提供准确的场景上下文。通过识别所有相关的部分,它让机器人在现实世界中获得知识。 大脑 #3: 这个大脑充当机器人的知识库和记忆(系统2)。它检索和解析任务所需的信息,在这种情况下,是合适的食谱和烹饪说明。它可能会查询在线食谱或其内部数据库以获取意大利面食谱,然后解释步骤(煮水、切蒜等)。 它回忆起关于厨房的事实(比如香料放在哪里)和过去的烹饪经验。本质上,提供语义理解和世界知识。然后将抽象指令(如“焦糖化洋葱”)计算为具体参数(温度、时间),以便机器人可以执行,确保计划符合你的偏好。 大脑 #4: 在目标和环境明确后,我们制定了详细的计划。它将高层目标分解为有序的动作和条件步骤。它安排任务(有时并行进行,比如在切菜的同时预热烤箱)并设定里程碑(水煮开、酱料准备好)。 它还跟踪进度,并可以在事情发生变化时即时重新规划(比如某种食材缺失)。然后将这个动作序列交给运动层的大脑执行。另一个系统2的大脑。 大脑 #5: 是时候从系统2架构转向系统1,将计划转化为具体的机器人动作。对于每个动作(如“走到冰箱”或“切胡萝卜”),它为机器人的身体和肢体生成适用的轨迹。 这个模块处理路径规划和逆向运动学,计算关节路径和角度,以便机器人平稳移动而不发生碰撞。它通常应用学习到的运动策略(如扩散变换策略)来为复杂任务产生流畅的动作。 如果大脑4说要从冰箱里取一个锅,大脑5就会计算出如何让机器人到达那里以及如何抓住锅。在需要时,它协调多个肢体(例如,使用双手提起重锅)。高层意图转化为硬件和软件的协同运动。 大脑 #6: 一旦运动计划设定,就该执行了。这个低层系统1控制大脑驱动机器人的执行器(电机和关节)。它持续读取传感器(关节角度、力量、平衡),并发送控制信号以跟随轨迹。 使用控制回路(PID控制器、模型预测控制等)保持精度,如果机器人开始倾斜或刀具偏离轨迹,它会立即纠正。这些是以毫秒速度运作的反射和精细运动技能。 当机器人切割胡萝卜时,大脑6调节力量并调整刀片角度,以获得均匀的切片而不滑动。这就像系统的潜意识“肌肉记忆”,自动处理低层细节。 大脑 #7: 最后一部分是专注于持续改进。在晚餐准备期间和之后,它分析性能。它是否洒了东西?搅拌时是否太慢? 这个模块使用强化学习和自我校准来随着时间的推移更新机器人的模型。机器人的核心技能最初是在大量人类演示和试错中训练的,但你需要不断微调它们。 如果它发现了一种更高效的切丁技术或更好的铲子握法,它会更新其策略,以便下次晚餐更顺利。这个自适应大脑使类人机器人随着经验变得更加熟练。 Codec:操作员在行动 Codec的架构如何将这些大脑结合在一起?每个“脑”作为机器人AI系统中的一个独立操作员模块运行。Codec的Fabric编排为每个操作员提供了自己的安全、沙盒环境。 这意味着视觉模块、语言/逻辑模块、规划模块等都在隔离中运行,但通过定义的接口进行通信。 如果一个模块崩溃或出现错误,它不会使整个机器人瘫痪,其他模块会安全运行。这种模块化设计也使得在不影响其他模块的情况下轻松更新或更换一个大脑,并根据需要添加新的专门操作员。 这种操作员方法直接支持多脑框架。当你请求晚餐时,机器人的执行大脑(大脑1)可以启动一个专门的“厨师”操作员来处理该任务,而其他操作员则并行处理感知和控制。 每个操作员仅访问其所需的资源(例如,食谱代理可能有互联网访问权限以获取说明,而控制代理仅与硬件接口),这提高了安全性。 Codec的模块化、沙盒设计是所有这些多样技能协同工作的粘合剂,类似于软件中的微服务,使类人机器人能够可靠地处理从头开始烹饪晚餐等复杂任务。 这就是为什么$CODEC将成为机器人技术的主要基础设施。
Trissy
Trissy8月23日 18:30
你会看到人形机器人基础模型持续使用一种受人类认知启发的系统2 + 系统1风格架构。 如今大多数视觉-语言-动作(VLA)模型都是作为集中式多模态系统构建的,这些系统在单一网络中处理感知、语言和动作。 Codec的基础设施非常适合这一点,因为它将每个操作员视为一个沙盒模块。这意味着你可以并行启动多个操作员,每个操作员运行自己的模型或任务,同时通过相同的架构保持它们的封装和协调。 机器人和人形机器人通常有多个大脑,其中一个操作员可能处理视觉处理,另一个处理平衡,另一个进行高层规划等,这些都可以通过Codec的系统进行协调。 Nvidia的基础模型Issac GR00T N1使用了两个模块的系统2 + 系统1架构。系统2是一个视觉-语言模型(类似于PaLM的版本,多模态),通过机器人的摄像头观察世界并听取指令,然后制定高层计划。 系统1是一个扩散变换器策略,它将该计划转化为实时的连续动作。你可以将系统2视为深思熟虑的大脑,而系统1则是本能的身体控制器。系统2可能输出类似“移动到红杯,抓住它,然后将其放在架子上”的指令,而系统1将生成腿和手臂执行每一步的详细关节轨迹。 系统1在大量轨迹数据(包括人类遥控演示和物理模拟数据)上进行了训练,以掌握精细动作,而系统2则基于具有互联网预训练(用于语义理解)的变换器构建。 这种推理与行动的分离对NVIDIA来说非常强大。这意味着GR00T可以处理需要规划的长时间任务(得益于系统2),同时也能立即对扰动做出反应(得益于系统1)。 如果一个机器人正在搬运一个托盘,而有人轻推托盘,系统1可以立即纠正平衡,而不是等待较慢的系统2注意到。 GR00T N1是第一个公开可用的机器人基础模型之一,并迅速获得了关注。 开箱即用,它在模拟中展示了多项任务的技能,能够用一只手或两只手抓取和移动物体,在手与手之间传递物品,并执行多步骤的任务,而无需任何特定任务的编程。因为它不依赖于单一的体现,开发者展示了它在不同机器人上工作的能力,调整最小。 这对于Helix(Figure的基础模型)也是如此,它使用了这种类型的架构。Helix允许两个机器人或多个技能同时操作,Codec可以通过运行多个共享信息的操作员来实现多智能体大脑。 这种“孤立舱”设计意味着每个组件可以专门化(就像系统1与系统2一样),甚至可以由不同团队开发,但它们可以协同工作。 这是一种独特的方法,因为Codec正在构建深层软件堆栈以支持这种模块化、分布式智能,而大多数其他公司只关注AI模型本身。 Codec还利用了大型预训练模型。如果你在其上构建机器人应用程序,你可能会将OpenVLA或Pi Zero基础模型作为你的操作员的一部分插入。Codec提供连接器,轻松访问摄像头数据或机器人API,因此你不必编写低级代码来从机器人的摄像头获取图像或向其电机发送速度命令。这一切都被抽象在一个高级SDK后面。 我对Codec如此看好的原因正是我上面所概述的。他们并不追逐叙事,架构旨在成为基础模型之间的粘合剂,并且无缝支持多大脑系统,这对人形机器人的复杂性至关重要。 因为我们在这个趋势中还很早,所以值得研究行业领导者的设计并理解它们为何有效。机器人技术由于硬件和软件之间的层次关系而难以理解,但一旦你学会逐步分解每个部分,就会变得容易得多。 现在可能觉得浪费时间,但这正是让我在AI时代获得先机的方法,也是我早期参与许多项目的原因。要有纪律,学习哪些组件可以共存,哪些组件无法扩展。 这将在未来几个月带来回报。 Deca Trillions ( $CODEC ) 编码。
7.54K