Позвольте мне нарисовать картину. Предположим, вы хотите, чтобы гуманоид приготовил вкусный ужин, пока вы сидите на диване и смотрите Netflix. Как это будет работать на техническом уровне, если гуманоид требует несколько "мозгов", чтобы приготовить ваш ужин? Интеллект робота не является монолитным, а представляет собой команду модулей ИИ, объединяющих медленное обдумывание с быстрыми рефлексами (дизайн Системы 2 + Системы 1). Его модель "зрение-язык-действие" (VLA) разделяет когницию на модуль рассуждений и реактивную контрольную политику. Поскольку робот работает на многомозговой когнитивной архитектуре, он запустит специального оператора "шефа", чтобы обработать ваш запрос, например, осмотреть кухню с помощью своих камер, найти рецепт, а затем направить свои конечности, чтобы начать нарезать овощи. Эти "мозги" можно разбить на следующие операторы. Мозг #1: Чтобы приготовить вкусный ужин, вам нужен исполнительный планировщик. Он интерпретирует вашу команду ("приготовить ужин"), чтобы определить цель (приготовить пасту). Используя понимание естественного языка, он решает, какие подзадачи необходимы (найти ингредиенты, приготовить пасту, накрыть на стол и т. д.) и какие другие "мозги" должны обрабатывать каждую из них. Он координирует многопользовательскую систему: активирует специализированные модули для зрения, знаний и движения. Этот обдумывающий мозг (система 2) принимает решения на высшем уровне, разрабатывает подход и распределяет обязанности до начала любых физических движений. Мозг #2: Теперь, когда у вас есть рецепт, вам понадобятся "глазки" робота и пространственное восприятие. Он обрабатывает видеопотоки с камер, чтобы идентифицировать ингредиенты, инструменты и их местоположение на кухне. Используя продвинутую компьютерную визуализацию, он видит разделочную доску, овощи в холодильнике, нож на столе и т. д. Он строит 3D-карту окружающей среды и отслеживает соответствующие объекты (например, где находятся соль или сковородки). Этот перцептивный мозг (Система 2) работает медленнее, чем рефлексы, но предоставляет точный контекст сцены для планирования. Признавая все вовлеченные элементы, он обучает робота в реальном мире. Мозг #3: Этот мозг действует как база знаний и память робота (Система 2). Он извлекает и анализирует информацию, необходимую для задачи, в данном случае, подходящий рецепт и инструкции по приготовлению. Он может запросить онлайн-книгу рецептов или свою внутреннюю базу данных для рецепта пасты, а затем интерпретировать шаги (вскипятить воду, нарезать чеснок и т. д.). Он вспоминает факты о кухне (например, где хранятся специи) и прошлые кулинарные опыты. По сути, он предоставляет семантическое понимание и знания о мире. Затем он вычисляет абстрактные инструкции (карамелизовать лук) в конкретные параметры (температура, время), которые робот может выполнить, обеспечивая соответствие плана вашим предпочтениям. Мозг #4: С учетом цели и окружающей среды мы разработали детальный план действий. Он разбивает высокоуровневую цель на упорядоченные действия и условные шаги. Он планирует задачи (иногда параллельно, например, разогревая духовку, пока нарезает овощи) и устанавливает контрольные точки (вода закипела, соус готов). Он также отслеживает прогресс и может перепланировать на лету, если что-то изменится (например, если отсутствует ингредиент). Затем он передает эту последовательность действий мозгам уровня движения для выполнения. Еще один мозг Системы 2. Мозг #5: Время перейти от архитектуры Системы 2 к Системе 1, переводя план в конкретные движения робота. Для каждого действия (например, "идти к холодильнику" или "нарезать морковь") он генерирует применимые траектории для тела и конечностей робота. Этот модуль обрабатывает планирование пути и обратную кинематику, вычисляя пути и углы суставов, чтобы робот двигался плавно, без столкновений. Обычно он применяет изученные моторные политики (например, политику диффузионного трансформера), чтобы производить плавные движения для сложных задач. Если Мозг 4 говорит, чтобы достать кастрюлю из холодильника, Мозг 5 определяет, как добраться до кастрюли и как ее схватить. Он координирует несколько конечностей, когда это необходимо (например, используя обе руки, чтобы поднять тяжелую кастрюлю). Высокий уровень намерения превращается в слияние аппаратного и программного обеспечения, движущегося в движении. Мозг #6: Как только план движения установлен, пора выполнять. Этот низкоуровневый мозг Системы 1 управляет актуаторами робота (моторами и суставами). Он постоянно считывает данные с датчиков (углы суставов, сила, баланс) и отправляет управляющие сигналы для следования траектории. Используя контрольные петли (PID-контроллеры, предсказательное управление и т. д.) для поддержания точности, если робот начинает наклоняться или нож отклоняется от курса, он мгновенно корректирует. Это рефлексы и тонкие моторные навыки, работающие на миллисекундных скоростях. Когда робот нарезает морковь, Мозг 6 модулирует силу и регулирует угол лезвия, чтобы получить равномерные ломтики без соскальзывания. Это как подсознательная "мускульная память" системы, автоматически обрабатывающая низкоуровневые детали. Мозг #7: Последний элемент сосредоточен на постоянном улучшении. Во время и после подготовки ужина он анализирует производительность. Разлил ли он что-нибудь? Был ли он слишком медленным при помешивании? Этот модуль использует обучение с подкреплением и самокалибровку, чтобы обновлять модели робота со временем. Основные навыки робота изначально обучались на огромных демонстрациях людей и методом проб и ошибок, но вам нужно постоянно их уточнять. Если он обнаружит более эффективную технику нарезки или лучший захват лопатки, он обновляет свою политику, чтобы следующий ужин прошел еще более гладко. Этот адаптивный мозг позволяет гуманоиду становиться более искусным с опытом. Codec: Операторы в действии Как архитектура Codec связывает эти "мозги" вместе? Каждый "мозг" работает как отдельный модуль оператора в системе ИИ робота. Оркестрация Fabric от Codec предоставляет каждому оператору свою собственную безопасную, изолированную среду. Это означает, что модуль зрения, модуль языка/логики, модуль планирования и т. д. все работают в изоляции, но общаются через определенные интерфейсы. Если один модуль выходит из строя или имеет ошибки, это не повлияет на весь робот, остальные продолжают работать безопасно. Этот модульный дизайн также упрощает обновление или замену одного мозга без влияния на остальные и добавление новых специализированных операторов по мере необходимости. Этот подход оператора напрямую поддерживает многомозговую структуру. Когда вы запрашиваете ужин, исполнительный мозг робота (Мозг 1) может запустить оператора "шефа", посвященного этой задаче, в то время как другие операторы обрабатывают восприятие и контроль параллельно. Каждый оператор имеет доступ только к ресурсам, которые ему нужны (например, агент рецептов может иметь доступ в интернет для получения инструкций, в то время как агент управления взаимодействует только с аппаратным обеспечением), что повышает безопасность. Модульный, изолированный дизайн Codec является связующим звеном для всех этих разнообразных навыков, работающих вместе, подобно микросервисам в программном обеспечении, позволяя гуманоиду надежно справляться со сложными задачами, такими как приготовление ужина с нуля. Вот почему $CODEC станет основной инфраструктурой для робототехники.
Trissy
Trissy23 авг., 18:30
Вы увидите, что фундаментальные модели для гуманоидов постоянно используют архитектуру в стиле Системы 2 + Системы 1, которая на самом деле вдохновлена человеческим познанием. Большинство моделей визуально-языкового действия (VLA) сегодня построены как централизованные мультимодальные системы, которые обрабатывают восприятие, язык и действия в рамках одной сети. Инфраструктура Codec идеально подходит для этого, так как она рассматривает каждого Оператора как изолированный модуль. Это означает, что вы можете запускать несколько Операторов параллельно, каждый из которых выполняет свою модель или задачу, при этом сохраняя их инкапсулированными и координированными через одну и ту же архитектуру. Роботы и гуманоиды в целом обычно имеют несколько "мозгов", где один Оператор может обрабатывать визуальную информацию, другой — поддерживать равновесие, третий — заниматься высокоуровневым планированием и т.д., что все может быть скоординировано через систему Codec. Фундаментальная модель Nvidia Issac GR00T N1 использует архитектуру из двух модулей Системы 2 + Системы 1. Система 2 — это модель визуального языка (версия PaLM или аналогичная, мультимодальная), которая наблюдает за миром через камеры робота и слушает инструкции, а затем составляет высокоуровневый план. Система 1 — это политика диффузионного трансформера, которая берет этот план и превращает его в непрерывные движения в реальном времени. Вы можете рассматривать Систему 2 как обдумывающий мозг, а Систему 1 как инстинктивный контроллер тела. Система 2 может выдать что-то вроде "переместитесь к красному кубку, схватите его, а затем положите на полку", а Система 1 сгенерирует детализированные траектории суставов для ног и рук, чтобы выполнить каждый шаг плавно. Система 1 была обучена на огромном количестве данных о траекториях (включая демонстрации с телепередачей от человека и данные, смоделированные физически), чтобы овладеть тонкими движениями, в то время как Система 2 была построена на трансформере с предобучением в интернете (для семантического понимания). Это разделение рассуждений и действий очень мощно для NVIDIA. Это означает, что GR00T может справляться с долгосрочными задачами, требующими планирования (благодаря Системе 2), а также мгновенно реагировать на perturbations (благодаря Системе 1). Если робот несет поднос и кто-то толкает поднос, Система 1 может немедленно исправить равновесие, а не ждать, пока более медленная Система 2 это заметит. GR00T N1 была одной из первых открыто доступных моделей робототехники, и она быстро завоевала популярность. Сразу из коробки она продемонстрировала навыки в различных задачах в симуляции, могла захватывать и перемещать объекты одной или двумя руками, передавать предметы между своими руками и выполнять многошаговые задачи без какой-либо специфической программировки. Поскольку она не была привязана к единственному воплощению, разработчики показали, что она работает на разных роботах с минимальными изменениями. Это также верно для Helix (фундаментальная модель Figure), которая использует этот тип архитектуры. Helix позволяет двум роботам или нескольким навыкам работать, Codec может обеспечить многопользовательский мозг, запуская несколько Операторов, которые обмениваются информацией. Этот дизайн "изолированного модуля" означает, что каждый компонент может быть специализирован (так же как Система 1 против Системы 2) и даже разрабатываться разными командами, но они могут работать вместе. Это уникальный подход в том смысле, что Codec строит глубокий программный стек для поддержки этой модульной, распределенной интеллекции, в то время как большинство других сосредоточены только на самой модели ИИ. Codec также использует большие предобученные модели. Если вы разрабатываете приложение для робота на его основе, вы можете подключить модель OpenVLA или модель Pi Zero в качестве части вашего Оператора. Codec предоставляет соединители, легкий доступ к видеопотокам или API робота, так что вам не нужно писать низкоуровневый код, чтобы получать изображения с камеры робота или отправлять команды скорости его моторам. Все это абстрагировано за высокоуровневым SDK. Одна из причин, по которой я так оптимистично настроен на Codec, именно то, что я описал выше. Они не гонятся за нарративами, архитектура построена как клей между фундаментальными моделями, и она без трения поддерживает многомозговые системы, что критически важно для сложности гуманоидов. Поскольку мы находимся на ранней стадии этой тенденции, стоит изучить дизайны лидеров отрасли и понять, почему они работают. Робототехника трудно воспринимается, учитывая слои аппаратного и программного обеспечения, но как только вы научитесь разбивать каждую секцию по частям, это становится гораздо легче усваивать. Это может показаться пустой тратой времени сейчас, но это тот же метод, который дал мне преимущество во время сезона ИИ и почему я был рано на многих проектах. Станьте дисциплинированными и учитесь, какие компоненты могут сосуществовать, а какие компоненты не масштабируются. Это принесет плоды в ближайшие месяцы. Deca Trillions ( $CODEC ) закодированы.
7,55K