Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nie widziałem nikogo, kto tak głęboko zanurzyłby się w narrację o Robotyce x AI jak Trissy
Na szczęście wiem, żeby mocno inwestować, gdy jego autyzm się ujawnia
Codec zakodowany

15 godz. temu
Zobaczysz modele podstawowe dla Humanoids, które nieustannie wykorzystują architekturę stylu System 2 + System 1, inspirowaną ludzką kognicją.
Większość modeli wizji-języka-akcji (VLA) dzisiaj jest budowana jako scentralizowane systemy multimodalne, które obsługują percepcję, język i działanie w ramach jednej sieci.
Infrastruktura Codec jest idealna do tego, ponieważ traktuje każdego Operatora jako moduł w piaskownicy. Oznacza to, że możesz uruchomić wiele Operatorów równolegle, z każdym działającym na swoim własnym modelu lub zadaniu, jednocześnie utrzymując je zamknięte i skoordynowane przez tę samą architekturę.
Roboty i Humanoidy w ogóle zazwyczaj mają wiele mózgów, gdzie jeden Operator może obsługiwać przetwarzanie wizji, inny równowagę, a jeszcze inny zajmować się planowaniem na wysokim poziomie itd., co można koordynować przez system Codec.
Model podstawowy Nvidia Issac GR00T N1 wykorzystuje architekturę dwóch modułów System 2 + System 1. System 2 to model wizji-języka (wersja PaLM lub podobna, multimodalna), który obserwuje świat przez kamery robota i słucha instrukcji, a następnie tworzy plan na wysokim poziomie.
System 1 to polityka transformatora dyfuzji, która przyjmuje ten plan i przekształca go w ciągłe ruchy w czasie rzeczywistym. Możesz myśleć o Systemie 2 jako o rozważającym mózgu, a o Systemie 1 jako o instynktownym kontrolerze ciała. System 2 może wyjść z czymś w stylu „przenieś się do czerwonego kubka, chwyć go, a następnie umieść go na półce”, a System 1 wygeneruje szczegółowe trajektorie stawów dla nóg i rąk, aby płynnie wykonać każdy krok.
System 1 był trenowany na ogromnych zbiorach danych trajektorii (w tym na danych zdalnie sterowanych przez ludzi i symulowanych danych fizycznych), aby opanować precyzyjne ruchy, podczas gdy System 2 został zbudowany na transformatorze z wstępnym treningiem w Internecie (dla zrozumienia semantycznego).
To rozdzielenie rozumowania i działania jest bardzo potężne dla NVIDIA. Oznacza to, że GR00T może obsługiwać długoterminowe zadania wymagające planowania (dzięki Systemowi 2) i również natychmiast reagować na zakłócenia (dzięki Systemowi 1).
Jeśli robot niesie tacę i ktoś ją szturcha, System 1 może natychmiast skorygować równowagę, zamiast czekać, aż wolniejszy System 2 to zauważy.
GR00T N1 był jednym z pierwszych otwarcie dostępnych modeli podstawowych w robotyce i szybko zyskał popularność.
Z pudełka wykazał umiejętności w wielu zadaniach w symulacji, mógł chwytać i przenosić obiekty jedną lub dwiema rękami, przekazywać przedmioty między swoimi rękami i wykonywać wieloetapowe zadania bez żadnego programowania specyficznego dla zadania. Ponieważ nie był związany z jedną konkretną formą, deweloperzy pokazali, że działa na różnych robotach z minimalnymi dostosowaniami.
To samo dotyczy Helix (modelu podstawowego Figure), który wykorzystuje ten typ architektury. Helix pozwala na działanie dwóch robotów lub wielu umiejętności, Codec mógłby umożliwić mózg wieloagentowy, uruchamiając kilka Operatorów, które dzielą się informacjami.
Ten projekt „izolowanego modułu” oznacza, że każdy komponent może być wyspecjalizowany (tak jak System 1 vs System 2) i nawet rozwijany przez różne zespoły, a mimo to mogą współpracować.
To unikalne podejście w tym sensie, że Codec buduje głęboki stos oprogramowania, aby wspierać tę modułową, rozproszoną inteligencję, podczas gdy większość innych koncentruje się tylko na samym modelu AI.
Codec wykorzystuje również duże modele wstępnie wytrenowane. Jeśli budujesz aplikację robota na tym, możesz podłączyć model podstawowy OpenVLA lub Pi Zero jako część swojego Operatora. Codec zapewnia złącza, łatwy dostęp do strumieni kamer lub API robotów, więc nie musisz pisać niskopoziomowego kodu, aby uzyskać obrazy z kamery robota lub wysłać polecenia prędkości do jego silników. Wszystko to jest abstrakcyjne za pomocą wysokopoziomowego SDK.
Jednym z powodów, dla których jestem tak optymistyczny co do Codec, jest dokładnie to, co opisałem powyżej. Nie gonią za narracjami, architektura jest zbudowana, aby być spoiwem między modelami podstawowymi, a bezproblemowo wspiera systemy wielomózgowe, co jest kluczowe dla złożoności humanoidów.
Ponieważ jesteśmy na początku tego trendu, warto badać projekty liderów branży i zrozumieć, dlaczego działają. Robotyka jest trudna do zrozumienia, biorąc pod uwagę warstwy sprzętu i oprogramowania, ale gdy nauczysz się rozbijać każdą sekcję na kawałki, staje się znacznie łatwiejsza do przyswojenia.
Może teraz wydawać się to stratą czasu, ale to ta sama metoda, która dała mi przewagę podczas AI szn i dlaczego byłem wcześnie w tak wielu projektach. Stań się zdyscyplinowany i naucz się, które komponenty mogą współistnieć, a które komponenty nie skalują się.
To przyniesie korzyści w nadchodzących miesiącach.
Deca Trillions ( $CODEC ) kodowane.

4,22K
Najlepsze
Ranking
Ulubione