Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lass mich das Bild malen.
Angenommen, du möchtest, dass ein Humanoid ein köstliches Abendessen kocht, während du auf der Couch sitzt und Netflix schaust.
Wie würde das auf technischer Ebene funktionieren, da der Humanoid mehrere Gehirne benötigt, um dein Abendessen zuzubereiten?
Die Intelligenz des Roboters ist nicht monolithisch, sondern ein Team von KI-Modulen, die langsame Überlegungen mit schnellen Reflexen kombinieren (System 2 + System 1 Design).
Sein Vision-Language-Action (VLA) Modell teilt die Kognition in ein Denkmodul und eine reaktive Steuerungspolitik auf.
Da der Roboter auf einer multi-gehirnigen kognitiven Architektur läuft, würde er einen speziellen "Koch"-Operator aktivieren, um deine Anfrage zu bearbeiten, indem er die Küche mit seinen Kameras inspiziert, ein Rezept sucht und dann seine Gliedmaßen anweist, mit dem Schneiden von Gemüse zu beginnen.
Diese Gehirne können in die folgenden Operatoren unterteilt werden.
Gehirn #1:
Um ein köstliches Abendessen zu kochen, benötigst du einen exekutiven Planer. Er interpretiert deinen Befehl ("Bereite das Abendessen vor") um das Ziel zu bestimmen (Nudeln machen). Mithilfe des Verständnisses natürlicher Sprache entscheidet er, welche Unteraufgaben erforderlich sind (Zutaten finden, Nudeln kochen, Tisch decken usw.) und welche anderen Gehirne jede Aufgabe übernehmen sollten.
Er koordiniert das Multi-Agenten-System: aktiviert spezialisierte Module für Vision, Wissen und Bewegung. Dieses überlegende Gehirn (System 2) trifft Entscheidungen auf oberster Ebene, legt den Ansatz fest und verteilt die Verantwortlichkeiten, bevor physische Bewegungen beginnen.
Gehirn #2:
Jetzt, da du das Rezept hast, benötigst du einige Roboteraugen und räumliches Bewusstsein. Es verarbeitet Kamerafeeds, um Zutaten, Werkzeuge und deren Standorte in der Küche zu identifizieren. Mithilfe fortschrittlicher Computer Vision sieht es das Schneidebrett, das Gemüse im Kühlschrank, das Messer auf der Arbeitsplatte usw.
Es erstellt eine 3D-Karte der Umgebung und verfolgt relevante Objekte (wie wo das Salz oder die Töpfe sind). Dieses wahrnehmende Gehirn (System 2) arbeitet langsamer als Reflexe, bietet jedoch einen genauen Kontext für die Planung. Indem es alle beteiligten Teile erkennt, bildet es den Roboter in der realen Welt aus.
Gehirn #3:
Dieses Gehirn fungiert als Wissensbasis und Gedächtnis des Roboters (System 2). Es ruft Informationen ab und analysiert sie, die für die Aufgabe benötigt werden, in diesem Fall ein geeignetes Rezept und Kochanweisungen. Es könnte ein Online-Kochbuch oder seine interne Datenbank nach einem Nudelrezept abfragen und dann die Schritte interpretieren (Wasser kochen, Knoblauch hacken usw.).
Es erinnert sich an Fakten über die Küche (wie wo die Gewürze aufbewahrt werden) und an vergangene Kocherfahrungen. Im Wesentlichen bietet es semantisches Verständnis und Weltwissen. Dann berechnet es abstrakte Anweisungen (Zwiebeln karamellisieren) in konkrete Parameter (Temperatur, Timing), die der Roboter ausführen kann, und stellt sicher, dass der Plan mit deinen Vorlieben übereinstimmt.
Gehirn #4:
Mit dem klaren Ziel und der Umgebung haben wir einen detaillierten Aktionsplan entwickelt. Es zerlegt das übergeordnete Ziel in geordnete Aktionen und bedingte Schritte. Es plant Aufgaben (manchmal parallel, wie den Ofen vorheizen, während das Gemüse geschnitten wird) und setzt Meilensteine (Wasser gekocht, Sauce fertig).
Es verfolgt auch den Fortschritt und kann bei Bedarf spontan umplanen, wenn sich etwas ändert (zum Beispiel, wenn eine Zutat fehlt). Dann übergibt es diese Aktionssequenz an die Bewegungslevel-Gehirne zur Ausführung. Ein weiteres System 2 Gehirn.
Gehirn #5:
Es ist Zeit, von der System 2-Architektur zu System 1 überzugehen und den Plan in konkrete Roboterbewegungen zu übersetzen. Für jede Aktion (wie "zum Kühlschrank gehen" oder "Karotten schneiden") generiert es anwendbare Trajektorien für den Körper und die Gliedmaßen des Roboters.
Dieses Modul kümmert sich um die Pfadplanung und inverse Kinematik, berechnet Gelenkpfade und -winkel, damit der Roboter reibungslos ohne Kollisionen bewegt. Es wendet typischerweise erlernte Motorrichtlinien (wie eine Diffusionstransformator-Richtlinie) an, um flüssige Bewegungen für komplexe Aufgaben zu erzeugen.
Wenn Gehirn 4 sagt, dass ein Topf aus dem Kühlschrank geholt werden soll, findet Gehirn 5 heraus, wie der Roboter dorthin gelangt und wie er den Topf greifen kann. Dabei koordiniert es mehrere Gliedmaßen, wenn nötig (zum Beispiel mit zwei Händen einen schweren Topf heben). Hohe Absicht wird zu einer Konvergenz von Hardware und Software in Bewegung.
Gehirn #6:
Sobald ein Bewegungsplan festgelegt ist, ist es Zeit zur Ausführung. Dieses niedrigstufige System 1 Steuerungsgehirn steuert die Aktuatoren des Roboters (Motoren und Gelenke). Es liest kontinuierlich Sensoren (Gelenkwinkel, Kraft, Gleichgewicht) und sendet Steuersignale, um der Trajektorie zu folgen.
Mithilfe von Regelkreisen (PID-Regler, modellprädiktive Steuerung usw.) wird die Präzision aufrechterhalten. Wenn der Roboter zu kippen beginnt oder ein Messer vom Kurs abweicht, korrigiert es sofort. Dies sind die Reflexe und Feinmotorik, die mit Millisekunden-Geschwindigkeit arbeiten.
Während der Roboter eine Karotte schneidet, moduliert Gehirn 6 die Kraft und passt den Klingenwinkel an, um gleichmäßige Scheiben ohne Verrutschen zu erhalten. Es ist wie das Unterbewusstsein "Muskelgedächtnis" des Systems, das niedrigstufige Details automatisch behandelt.
Gehirn #7:
Das letzte Puzzlestück konzentriert sich auf kontinuierliche Verbesserung. Während und nach der Zubereitung des Abendessens analysiert es die Leistung. Hat es etwas verschüttet? War es zu langsam beim Rühren?
Dieses Modul verwendet Reinforcement Learning und Selbstkalibrierung, um die Modelle des Roboters im Laufe der Zeit zu aktualisieren. Die Kernfähigkeiten des Roboters wurden ursprünglich durch massive menschliche Demonstrationen und Trial-and-Error trainiert, aber du musst sie kontinuierlich verfeinern.
Wenn es eine effizientere Würfeltechnik oder einen besseren Spatelgriff entdeckt, aktualisiert es seine Richtlinie, damit das nächste Abendessen noch reibungsloser verläuft. Dieses adaptive Gehirn ermöglicht es dem Humanoiden, mit Erfahrung geschickter zu werden.
Codec: Operatoren in Aktion
Wie verbindet die Architektur von Codec diese Gehirne? Jedes "Gehirn" läuft als separates Operator-Modul im KI-System des Roboters. Die Fabric-Orchestrierung von Codec bietet jedem Operator seine eigene sichere, isolierte Umgebung.
Das bedeutet, dass das Vision-Modul, das Sprach-/Logik-Modul, das Planungsmodul usw. alle isoliert laufen, aber über definierte Schnittstellen kommunizieren.
Wenn ein Modul abstürzt oder Fehler hat, bringt es den gesamten Roboter nicht zum Stillstand, die anderen laufen sicher weiter. Dieses modulare Design erleichtert auch das Aktualisieren oder Austauschen eines Gehirns, ohne die anderen zu beeinträchtigen, und das Hinzufügen neuer spezialisierter Operatoren nach Bedarf.
Dieser Operatoransatz unterstützt direkt das Multi-Gehirn-Framework. Wenn du Abendessen anforderst, kann das exekutive Gehirn des Roboters (Gehirn 1) einen "Koch"-Operator aktivieren, der sich dieser Aufgabe widmet, während andere Operatoren Wahrnehmung und Kontrolle parallel bearbeiten.
Jeder Operator hat nur Zugriff auf die Ressourcen, die er benötigt (zum Beispiel könnte der Rezept-Agent Internetzugang haben, um Anweisungen abzurufen, während der Steuerungs-Agent nur mit der Hardware kommuniziert), was die Sicherheit verbessert.
Das modulare, isolierte Design von Codec ist der Kleber, der all diese unterschiedlichen Fähigkeiten zusammenarbeiten lässt, ähnlich wie Microservices in Software, und es dem Humanoiden ermöglicht, komplexe Aufgaben wie das Kochen eines Abendessens von Grund auf zuverlässig zu bewältigen.
Deshalb wird $CODEC die primäre Infrastruktur für Robotik sein.


23. Aug., 18:30
Sie werden sehen, dass Fundamentmodelle für Humanoide kontinuierlich eine System 2 + System 1 Architektur verwenden, die tatsächlich von der menschlichen Kognition inspiriert ist.
Die meisten Vision-Language-Action (VLA) Modelle von heute sind als zentrale multimodale Systeme aufgebaut, die Wahrnehmung, Sprache und Handlung innerhalb eines einzigen Netzwerks verarbeiten.
Die Infrastruktur von Codec ist perfekt dafür, da sie jeden Operator als einen isolierten Modul behandelt. Das bedeutet, dass Sie mehrere Operatoren parallel starten können, wobei jeder sein eigenes Modell oder seine eigene Aufgabe ausführt, während sie durch dieselbe Architektur gekapselt und koordiniert bleiben.
Roboter und Humanoide im Allgemeinen haben typischerweise mehrere Gehirne, wobei ein Operator die Bildverarbeitung übernimmt, ein anderer das Gleichgewicht, ein weiterer die hochrangige Planung usw., die alle durch das System von Codec koordiniert werden können.
Nvidias Fundamentmodell Issac GR00T N1 verwendet die zwei Modul System 2 + System 1 Architektur. System 2 ist ein Vision-Language-Modell (eine Version von PaLM oder ähnlich, multimodal), das die Welt durch die Kameras des Roboters beobachtet und Anweisungen hört, um dann einen hochrangigen Plan zu erstellen.
System 1 ist eine Diffusions-Transformator-Politik, die diesen Plan nimmt und ihn in kontinuierliche Bewegungen in Echtzeit umsetzt. Man kann sich System 2 als das überlegte Gehirn und System 1 als den instinktiven Körpercontroller vorstellen. System 2 könnte etwas ausgeben wie „bewege dich zur roten Tasse, greife sie, und stelle sie dann auf das Regal“, und System 1 wird die detaillierten Gelenktrajektorien für die Beine und Arme generieren, um jeden Schritt reibungslos auszuführen.
System 1 wurde mit einer Menge Trajektoriendaten (einschließlich menschlicher teleoperierter Demos und physiksimulierten Daten) trainiert, um feine Bewegungen zu meistern, während System 2 auf einem Transformator mit Internet-Vortraining (für semantisches Verständnis) aufgebaut wurde.
Diese Trennung von Denken und Handeln ist sehr mächtig für NVIDIA. Das bedeutet, dass GR00T langfristige Aufgaben, die Planung erfordern (dank System 2), bewältigen kann und auch sofort auf Störungen reagieren kann (dank System 1).
Wenn ein Roboter ein Tablett trägt und jemand das Tablett anstößt, kann System 1 das Gleichgewicht sofort korrigieren, anstatt auf das langsamere System 2 zu warten, um es zu bemerken.
GR00T N1 war eines der ersten öffentlich verfügbaren Fundamentmodelle für Robotik und gewann schnell an Bedeutung.
Out of the box zeigte es Fähigkeiten in vielen Aufgaben in Simulationen, es konnte Objekte mit einer oder zwei Händen greifen und bewegen, Gegenstände zwischen seinen Händen übergeben und mehrstufige Aufgaben ohne spezifische Programmierung ausführen. Da es nicht an eine einzige Verkörperung gebunden war, zeigten Entwickler, dass es auf verschiedenen Robotern mit minimalen Anpassungen funktionierte.
Das gilt auch für Helix (das Fundamentmodell von Figure), das diese Art von Architektur verwendet. Helix ermöglicht es, dass zwei Roboter oder mehrere Fähigkeiten operieren, Codec könnte ein Multi-Agenten-Gehirn ermöglichen, indem mehrere Operatoren betrieben werden, die Informationen teilen.
Dieses "isolierte Pod"-Design bedeutet, dass jede Komponente spezialisiert werden kann (genau wie System 1 vs. System 2) und sogar von verschiedenen Teams entwickelt werden kann, dennoch können sie zusammenarbeiten.
Es ist ein einzigartiger Ansatz, da Codec den tiefen Software-Stack aufbaut, um diese modulare, verteilte Intelligenz zu unterstützen, während die meisten anderen sich nur auf das KI-Modell selbst konzentrieren.
Codec nutzt auch große vortrainierte Modelle. Wenn Sie eine Roboteranwendung darauf aufbauen, könnten Sie ein OpenVLA oder ein Pi Zero Fundamentmodell als Teil Ihres Operators einfügen. Codec bietet die Anschlüsse, einfachen Zugang zu Kamerafeeds oder Roboter-APIs, sodass Sie den Low-Level-Code nicht schreiben müssen, um Bilder von der Kamera eines Roboters zu erhalten oder Geschwindigkeitsbefehle an seine Motoren zu senden. Alles ist hinter einem hochrangigen SDK abstrahiert.
Einer der Gründe, warum ich so optimistisch gegenüber Codec bin, ist genau das, was ich oben skizziert habe. Sie verfolgen keine Narrative, die Architektur ist so gebaut, dass sie der Kleber zwischen Fundamentmodellen ist, und sie unterstützt reibungslos Multi-Gehirn-Systeme, was für die Komplexität von Humanoiden entscheidend ist.
Da wir in diesem Trend noch so früh sind, ist es wert, die Designs von Branchenführern zu studieren und zu verstehen, warum sie funktionieren. Robotik ist schwer zu begreifen, angesichts der Schichten über Hardware und Software, aber sobald Sie lernen, jeden Abschnitt Stück für Stück zu zerlegen, wird es viel einfacher zu verdauen.
Es mag sich jetzt wie Zeitverschwendung anfühlen, aber dies ist dieselbe Methode, die mir einen Vorsprung während der AI-Saison verschaffte und warum ich bei so vielen Projekten frühzeitig war. Werden Sie diszipliniert und lernen Sie, welche Komponenten koexistieren können und welche Komponenten nicht skalieren.
Es wird sich in den kommenden Monaten auszahlen.
Deca Trillions ( $CODEC ) kodiert.

7,55K
Top
Ranking
Favoriten