Дозвольте мені намалювати картину. Скажімо, ви хочете, щоб гуманоїд приготував смачну вечерю, поки ви сидите на дивані та дивитеся Netflix. Як це працюватиме на технічному рівні, адже Гуманоїду потрібно кілька мізків, щоб приготувати вашу вечерю? Інтелект робота не монолітний, а команда модулів штучного інтелекту, що поєднують повільне обговорення зі швидкими рефлексами (дизайн Системи 2 + Системи 1). Його модель «бачення-мова-дія» (VLA) розділяє пізнання на модуль міркування та політику реактивного управління. Оскільки робот працює на когнітивній архітектурі з кількома мозками, він запустить спеціального оператора-«шеф-кухаря», який обробить ваш запит, наприклад, огляне кухню за допомогою камер, знайде рецепт, а потім спрямує свої кінцівки на початок подрібнення овочів. Цей мозок можна розбити на наступні оператори. Мозок #1: Щоб приготувати смачну вечерю, потрібен виконавчий планувальник. Він тлумачить вашу команду («приготувати вечерю») для визначення мети (зробити макарони). Використовуючи розуміння природної мови, він вирішує, які підзавдання потрібні (знайти інгредієнти, приготувати макарони, накрити стіл тощо) і який інший мозок повинен виконувати кожне з них. Він координує роботу мультиагентної системи: активує спеціалізовані модулі для зору, знань і руху. Цей дорадчий мозок (система 2) приймає рішення на найвищому рівні, викладає підхід і розподіляє обов'язки перед початком будь-яких фізичних рухів. Мозок #2: Тепер, коли у вас є рецепт, вам знадобляться очі робота та просторова орієнтація. Він обробляє потоки з камери, щоб визначити інгредієнти, інструменти та їх розташування на кухні. Використовуючи вдосконалений комп'ютерний зір, він бачить обробну дошку, овочі в холодильнику, ніж на столі тощо. Він створює 3D-карту навколишнього середовища та відстежує відповідні об'єкти (наприклад, де знаходиться сіль або сковорідки). Цей перцептивний мозок (Система 2) працює повільніше, ніж рефлекси, але забезпечує точний контекст сцени для планування. Розпізнаючи всі задіяні частини, він навчає робота в реальному світі. Мозок #3: Цей мозок діє як база знань і пам'ять робота (Система 2). Він витягує та аналізує інформацію, необхідну для виконання завдання, в даному випадку відповідний рецепт та інструкцію з приготування. Він може зробити запит до онлайн-кулінарної книги або внутрішньої бази даних за рецептом пасти, а потім інтерпретувати кроки (закип'ятити воду, подрібнити часник тощо). У ньому згадуються факти про кухню (наприклад, де зберігаються спеції) і минулий кулінарний досвід. По суті, забезпечення семантичного розуміння та пізнання світу. Потім обчислює абстрактні інструкції (карамелізуйте цибулю) у конкретні параметри (температура, час), які робот може виконати, гарантуючи, що план відповідає вашим уподобанням. Мозок #4: З'ясувавши мету та оточення, ми розробили детальний план гри. Він розбиває мету високого рівня на впорядковані дії та умовні кроки. Він планує завдання (іноді паралельно, наприклад, розігрівати духовку під час нарізання овочів) і встановлює етапи (вода кип'ятиться, соус готовий). Він також відстежує прогрес і може змінювати планування на льоту, якщо щось змінюється (скажімо, відсутній якийсь інгредієнт). Потім він передає цю послідовність дій на рівень руху мозку для виконання. Ще одна Система 2 мозок. Мозок #5: Час переходити від архітектури Системи 2 до переходу до Системи 1, переводячи задум у конкретні рухи робота. Для кожної дії (наприклад, «йти до холодильника» або «нарізати моркву») він генерує відповідні траєкторії для тіла та кінцівок робота. Цей модуль обробляє планування шляху та обернену кінематику, обчислюючи шляхи з'єднань і кути, щоб робот рухався плавно без зіткнень. Як правило, він застосовує вивчені моторні політики (наприклад, політику дифузійного трансформатора) для створення рухів рідини для складних завдань. Якщо Brain 4 каже дістати каструлю з холодильника, Brain 5 з'ясовує, як доставити робота туди і як схопити горщик. Де він координує кілька кінцівок, коли це необхідно (використовуючи дві руки для підняття важкого горщика, наприклад). Інтенція високого рівня перетворюється на зближення апаратних і програмних засобів, що рухаються в русі Мозок #6: Після того, як план руху встановлений, настав час його виконання. Цей низькорівневий керуючий мозок Системи 1 приводить в рух виконавчі механізми робота (двигуни та суглоби). Він безперервно зчитує датчики (кути з'єднання, сила, баланс) і посилає керуючі сигнали для слідування за траєкторією. Використовуючи контури керування (PID-контролери, прогнозне керування моделлю тощо) для збереження точності, якщо робот починає перекидатися або ніж відхиляється від курсу, він миттєво виправляється. Це рефлекси і дрібна моторика, що працюють на мілісекундних швидкостях. Коли робот нарізає моркву, Brain 6 модулює силу та регулює кут нахилу леза, щоб отримати рівномірні скибочки без ковзання. Це схоже на підсвідому «м'язову пам'ять» системи, яка автоматично обробляє низькорівневі деталі. Мозок #7: Заключна частина зосереджена на постійному вдосконаленні. Під час і після приготування вечері він аналізує продуктивність. Чи не розлив він щось? Чи не занадто повільно він перемішував? Цей модуль використовує навчання з підкріпленням і самокалібрування для оновлення моделей робота з часом. Основні навички робота спочатку тренувалися на масових демонстраціях на людях і методом проб і помилок, але вам потрібно постійно вдосконалювати їх. Якщо він виявляє більш ефективну техніку нарізання кубиками або кращий хват лопаткою, він оновлює свою політику, щоб наступна вечеря пройшла ще гладкіше. Цей адаптивний мозок дозволяє гуманоїду з досвідом ставати більш вправним. Codec: оператори в дії Як архітектура Codec пов'язує ці мізки разом? Кожен «мозок» працює як окремий модуль оператора в системі штучного інтелекту робота. Оркестрація Fabric від Codec надає кожному оператору власне безпечне середовище в пісочниці. Це означає, що модуль vision, модуль мови/логіки, модуль планування тощо працюють ізольовано, але спілкуються через визначені інтерфейси. Якщо один модуль виходить з ладу або має помилки, це не виведе з ладу всього робота, інші продовжують працювати безпечно. Ця модульна конструкція також дозволяє легко оновлювати або замінювати один мозок, не впливаючи на інші, а також додавати нових спеціалізованих операторів за потреби. Цей операторський підхід безпосередньо підтримує структуру мультимозку. Коли ви замовляєте вечерю, виконавчий мозок робота (Brain 1) може запустити оператора «шеф-кухаря», присвяченого цьому завданню, в той час як інші оператори займаються сприйняттям і контролем паралельно. Кожен оператор має доступ лише до потрібних йому ресурсів (наприклад, агент рецептів може мати доступ до інтернету для отримання інструкцій, тоді як агент керування взаємодіє лише з апаратним забезпеченням), що підвищує безпеку. Модульний дизайн Codec у вигляді пісочниці є сполучною ланкою для всіх цих різноманітних навичок, які працюють разом, подібно до мікросервісів у програмному забезпеченні, що дозволяє гуманоїду надійно справлятися зі складними завданнями, такими як приготування вечері з нуля. Ось чому $CODEC буде основною інфраструктурою для робототехніки.
Trissy
Trissy23 серп., 18:30
Ви будете бачити базові моделі для Гуманоїдів, які постійно використовують архітектуру в стилі System 2 + System 1, яка насправді натхненна людським пізнаванням. Більшість моделей «бачення-мова-дія» (VLA) сьогодні побудовані як централізовані мультимодальні системи, які обробляють сприйняття, мову та дії в межах єдиної мережі. Інфраструктура Codec ідеально підходить для цього, оскільки вона розглядає кожного оператора як модуль у пісочниці. Це означає, що ви можете розкручувати кілька операторів паралельно, кожен з яких запускає свою власну модель або завдання, зберігаючи при цьому їх інкапсульованими та скоординованими за допомогою однієї архітектури. Роботи та гуманоїди загалом зазвичай мають кілька мозків, де один оператор може займатися обробкою зору, інший – балансом, третій – високорівневим плануванням тощо, які можуть координуватися за допомогою системи Codec. Базова модель Nvidia Issac GR00T N1 використовує архітектуру з двома модулями System 2 + System 1. Система 2 – це модель мови бачення (версія PaLM або аналогічна мультимодальна), яка спостерігає за світом через камери робота та слухає інструкції, а потім складає план високого рівня. Система 1 - це політика дифузійного трансформатора, яка бере цей план і перетворює його в безперервні рухи в режимі реального часу. Ви можете думати про Систему 2 як про дорадчий мозок, а про Систему 1 як про інстинктивний контролер тіла. Система 2 може вивести щось на кшталт «перемістіться до червоної чашки, візьміться за неї, а потім покладіть на полицю», а Система 1 згенерує детальні траєкторії з'єднань для ніг і рук, щоб плавно виконувати кожен крок. Система 1 була навчена на тоннах даних про траєкторії (включаючи телекеровані демонстрації людини та дані, змодельовані з фізики) для освоєння тонких рухів, тоді як Система 2 була побудована на трансформаторі з попереднім навчанням в Інтернеті (для семантичного розуміння). Цей поділ між міркуваннями та діями є дуже потужним для NVIDIA. Це означає, що GR00T може виконувати завдання з довгим горизонтом, які вимагають планування (завдяки Системі 2), а також миттєво реагувати на збурення (завдяки Системі 1). Якщо робот несе лоток, а хтось штовхає лоток, Система 1 може негайно виправити баланс, а не чекати, поки повільніша Система 2 помітить це. GR00T N1 була однією з перших відкрито доступних моделей основи робототехніки, і вона швидко набула популярності. З коробки він продемонстрував майстерність у багатьох завданнях у симуляції, він міг захоплювати та переміщати об'єкти однією або двома руками, передавати предмети між руками та виконувати багатоетапні дії без будь-якого програмування конкретного завдання. Оскільки він не був прив'язаний до одного варіанту, розробники показали його роботу на різних роботах з мінімальними коригуваннями. Це також справедливо для Helix (базова модель Figure), яка використовує цей тип архітектури. Helix дозволяє працювати двом роботам або декільком навичкам, Codec може активувати мозок кількох агентів, керуючи кількома операторами, які обмінюються інформацією. Цей дизайн «ізольованого блоку» означає, що кожен компонент може бути спеціалізованим (так само, як Система 1 проти Системи 2) і навіть розроблений різними командами, але вони можуть працювати разом. Це єдиний у своєму роді підхід у тому сенсі, що Codec створює глибокий програмний стек для підтримки цього модульного, розподіленого інтелекту, тоді як більшість інших зосереджуються лише на самій моделі штучного інтелекту. Codec також використовує великі попередньо навчені моделі. Якщо ви створюєте програму для роботів на ньому, ви можете підключити базову модель OpenVLA або Pi Zero як частину вашого оператора. Кодек забезпечує роз'єми, легкий доступ до каналів камер або API роботів, тому вам не потрібно писати низькорівневий код, щоб отримати зображення з камери робота або надіслати команди швидкості на його двигуни. Все це абстрагується за високорівневим SDK. Одна з причин, чому я так оптимістично налаштований щодо кодека, полягає саме в тому, що я описав вище. Вони не женуться за наративами, архітектура побудована таким чином, щоб бути клеєм між базовими моделями, і вона безперешкодно підтримує мультимозкові системи, що критично важливо для гуманоїдної складності. Оскільки ми знаходимося на ранніх стадіях цієї тенденції, варто вивчати дизайни лідерів галузі та розуміти, чому вони працюють. Робототехніку важко зрозуміти, враховуючи шари між апаратним і програмним забезпеченням, але як тільки ви навчитеся розбивати кожен розділ по частинах, це стане набагато простіше засвоїти. Зараз це може здатися марною тратою часу, але це той самий метод, який дав мені фору під час AI szn і чому я був раннім у такій кількості проєктів. Станьте дисциплінованими та дізнайтеся, які компоненти можуть співіснувати, а які – ні. Він принесе дивіденди протягом найближчих місяців. Дека Трильйони ( $CODEC ) закодовано.
7,54K