Neviděl jsem nikoho tak hluboko v příběhu Robotika x AI jako Trissy Naštěstí vím, že mám alokovat hodně, když se jeho autismus projeví Kódovaný kodek
Trissy
Trissy23. 8. 18:30
Uvidíte základní modely pro humanoidy, které neustále používají architekturu ve stylu System 2 + System 1, která je ve skutečnosti inspirována lidským poznáním. Většina modelů vize-jazyk-akce (VLA) je dnes postavena jako centralizované multimodální systémy, které zpracovávají vnímání, jazyk a akce v rámci jedné sítě. Infrastruktura kodeku je pro to ideální, protože s každým operátorem zachází jako s modulem v izolovaném prostoru. To znamená, že můžete paralelně spustit více operátorů, z nichž každý provozuje svůj vlastní model nebo úlohu, a přitom je udržovat zapouzdřené a koordinované prostřednictvím stejné architektury. Roboti a humanoidi obecně mají obvykle více mozků, kde jeden operátor může zpracovávat obraz, další balancovat, další provádět plánování na vysoké úrovni atd., což vše může být koordinováno prostřednictvím systému Codecu. Základní model Nvidie Issac GR00T N1 využívá architekturu dvou modulů System 2 + System 1. Systém 2 je model jazyka vidění (verze PaLM nebo podobná, multimodální), který pozoruje svět skrze kamery robota a poslouchá pokyny, poté vytváří plán na vysoké úrovni. Systém 1 je politika difúzního transformátoru, která přebírá tento plán a převádí jej na nepřetržité pohyby v reálném čase. Systém 2 si můžete představit jako deliberativní mozek a Systém 1 jako instinktivní kontrolor těla. Systém 2 může vydávat něco jako "přesuňte se k červenému šálku, uchopte jej a pak jej položte na polici" a Systém 1 vygeneruje podrobné trajektorie kloubů pro nohy a paže, aby se každý krok hladce provedl. Systém 1 byl trénován na tunách dat o trajektorii (včetně teleoperovaných ukázek a fyzikálně simulovaných dat), aby zvládl jemné pohyby, zatímco Systém 2 byl postaven na transformátoru s předběžným trénováním internetu (pro sémantické porozumění). Toto oddělení uvažování a jednání je pro NVIDIA velmi silné. To znamená, že GR00T dokáže zvládnout úlohy s dlouhým horizontem, které vyžadují plánování (díky Systému 2) a také okamžitě reagovat na poruchy (díky Systému 1). Pokud robot nese podnos a někdo do něj šťouchne, Systém 1 může rovnováhu okamžitě opravit, místo aby čekal, až si toho všimne pomalejší Systém 2. GR00T N1 byl jedním z prvních otevřeně dostupných základních modelů robotiky a rychle se prosadil. Po vybalení z krabice prokázal dovednosti v mnoha úlohách v simulaci, dokázal uchopit a přesunout objekty jednou nebo dvěma rukama, předměty v ruce mezi rukama a provádět vícekrokové práce bez jakéhokoli programování specifického pro daný úkol. Protože nebyl vázán na jediné provedení, vývojáři jej ukázali při práci na různých robotech s minimálními úpravami. To platí také pro Helix (základní model figury), který používá tento typ architektury. Helix umožňuje pracovat dvěma robotům nebo více dovednostem, kodek by mohl umožnit multi agentní mozek spuštěním několika operátorů, kteří sdílejí informace. Tento design "izolovaného modulu" znamená, že každá komponenta může být specializovaná (stejně jako Systém 1 vs. Systém 2) a dokonce vyvinutá různými týmy, a přesto mohou spolupracovat. Je to jedinečný přístup v tom smyslu, že Codec vytváří hluboký softwarový stack pro podporu této modulární, distribuované inteligence, zatímco většina ostatních se zaměřuje pouze na samotný model AI. Kodek také využívá velké předtrénované modely. Pokud na něm vytváříte robotickou aplikaci, můžete jako součást svého operátora připojit základní model OpenVLA nebo Pi Zero. Kodek poskytuje konektory, snadný přístup ke zdrojům z kamer nebo rozhraní API robota, takže nemusíte psát nízkoúrovňový kód, abyste získali obrázky z kamery robota nebo odesílali příkazy k rychlosti jeho motorům. To vše je abstrahováno za sadou SDK vysoké úrovně. Jedním z důvodů, proč jsem tak býčí ohledně kodeku, je přesně to, co jsem nastínil výše. Nehoní se za příběhy, architektura je postavena tak, aby byla lepidlem mezi základními modely, a bez tření podporuje vícemozkové systémy, což je pro humanoidní složitost kritické. Protože jsme v tomto trendu tak brzy, stojí za to studovat návrhy lídrů v oboru a pochopit, proč fungují. Robotika je těžko uchopitelná vzhledem k vrstvám napříč hardwarem a softwarem, ale jakmile se naučíte rozebrat každou část po kousku, bude mnohem snazší ji strávit. Teď se to může zdát jako ztráta času, ale je to stejná metoda, která mi dala náskok během AI szn a proč jsem byl na začátku u tolika projektů. Staňte se disciplinovanými a naučte se, které komponenty mohou existovat společně a které ne. V nadcházejících měsících se to vyplatí. Deca biliony ( $CODEC ) kódováno.
4,7K