Я не бачив нікого настільки глибоко в наративі Robotics x AI, як Тріссі На щастя, я знаю, що коли у нього починається аутизм Кодек
Trissy
Trissy22 години тому
Ви будете бачити базові моделі для Гуманоїдів, які постійно використовують архітектуру в стилі System 2 + System 1, яка насправді натхненна людським пізнаванням. Більшість моделей «бачення-мова-дія» (VLA) сьогодні побудовані як централізовані мультимодальні системи, які обробляють сприйняття, мову та дії в межах єдиної мережі. Інфраструктура Codec ідеально підходить для цього, оскільки вона розглядає кожного оператора як модуль у пісочниці. Це означає, що ви можете розкручувати кілька операторів паралельно, кожен з яких запускає свою власну модель або завдання, зберігаючи при цьому їх інкапсульованими та скоординованими за допомогою однієї архітектури. Роботи та гуманоїди загалом зазвичай мають кілька мозків, де один оператор може займатися обробкою зору, інший – балансом, третій – високорівневим плануванням тощо, які можуть координуватися за допомогою системи Codec. Базова модель Nvidia Issac GR00T N1 використовує архітектуру з двома модулями System 2 + System 1. Система 2 – це модель мови бачення (версія PaLM або аналогічна мультимодальна), яка спостерігає за світом через камери робота та слухає інструкції, а потім складає план високого рівня. Система 1 - це політика дифузійного трансформатора, яка бере цей план і перетворює його в безперервні рухи в режимі реального часу. Ви можете думати про Систему 2 як про дорадчий мозок, а про Систему 1 як про інстинктивний контролер тіла. Система 2 може вивести щось на кшталт «перемістіться до червоної чашки, візьміться за неї, а потім покладіть на полицю», а Система 1 згенерує детальні траєкторії з'єднань для ніг і рук, щоб плавно виконувати кожен крок. Система 1 була навчена на тоннах даних про траєкторії (включаючи телекеровані демонстрації людини та дані, змодельовані з фізики) для освоєння тонких рухів, тоді як Система 2 була побудована на трансформаторі з попереднім навчанням в Інтернеті (для семантичного розуміння). Цей поділ між міркуваннями та діями є дуже потужним для NVIDIA. Це означає, що GR00T може виконувати завдання з довгим горизонтом, які вимагають планування (завдяки Системі 2), а також миттєво реагувати на збурення (завдяки Системі 1). Якщо робот несе лоток, а хтось штовхає лоток, Система 1 може негайно виправити баланс, а не чекати, поки повільніша Система 2 помітить це. GR00T N1 була однією з перших відкрито доступних моделей основи робототехніки, і вона швидко набула популярності. З коробки він продемонстрував майстерність у багатьох завданнях у симуляції, він міг захоплювати та переміщати об'єкти однією або двома руками, передавати предмети між руками та виконувати багатоетапні дії без будь-якого програмування конкретного завдання. Оскільки він не був прив'язаний до одного варіанту, розробники показали його роботу на різних роботах з мінімальними коригуваннями. Це також справедливо для Helix (базова модель Figure), яка використовує цей тип архітектури. Helix дозволяє працювати двом роботам або декільком навичкам, Codec може активувати мозок кількох агентів, керуючи кількома операторами, які обмінюються інформацією. Цей дизайн «ізольованого блоку» означає, що кожен компонент може бути спеціалізованим (так само, як Система 1 проти Системи 2) і навіть розроблений різними командами, але вони можуть працювати разом. Це єдиний у своєму роді підхід у тому сенсі, що Codec створює глибокий програмний стек для підтримки цього модульного, розподіленого інтелекту, тоді як більшість інших зосереджуються лише на самій моделі штучного інтелекту. Codec також використовує великі попередньо навчені моделі. Якщо ви створюєте програму для роботів на ньому, ви можете підключити базову модель OpenVLA або Pi Zero як частину вашого оператора. Кодек забезпечує роз'єми, легкий доступ до каналів камер або API роботів, тому вам не потрібно писати низькорівневий код, щоб отримати зображення з камери робота або надіслати команди швидкості на його двигуни. Все це абстрагується за високорівневим SDK. Одна з причин, чому я так оптимістично налаштований щодо кодека, полягає саме в тому, що я описав вище. Вони не женуться за наративами, архітектура побудована таким чином, щоб бути клеєм між базовими моделями, і вона безперешкодно підтримує мультимозкові системи, що критично важливо для гуманоїдної складності. Оскільки ми знаходимося на ранніх стадіях цієї тенденції, варто вивчати дизайни лідерів галузі та розуміти, чому вони працюють. Робототехніку важко зрозуміти, враховуючи шари між апаратним і програмним забезпеченням, але як тільки ви навчитеся розбивати кожен розділ по частинах, це стане набагато простіше засвоїти. Зараз це може здатися марною тратою часу, але це той самий метод, який дав мені фору під час AI szn і чому я був раннім у такій кількості проєктів. Станьте дисциплінованими та дізнайтеся, які компоненти можуть співіснувати, а які – ні. Він принесе дивіденди протягом найближчих місяців. Дека Трильйони ( $CODEC ) закодовано.
4,69K