Google DeepMind stellt Gemini Robotics 1.5 vor, das Robotern ermöglicht, komplexe Aufgaben wahrzunehmen, zu planen, zu denken, Werkzeuge zu verwenden und zu handeln. Das agentische Framework umfasst: ⦿ Gemini Robotics-ER 1.5 (VLM): Orchestriert hochrangiges verkörpertes Denken und Planen. ⦿ Gemini Robotics 1.5 (VLA): Wandelt visuelle Darstellungen und Anweisungen, die von ER 1.5 bereitgestellt werden, in Aktionen um.
Das VLA-Modell "denkt nach, bevor es handelt" und verwendet ein mehrstufiges, natürlichsprachliches Monolog. Es zerlegt Aufgaben wie "Wäsche nach Farbe sortieren" in Schritte (z. B. Farben identifizieren, Gegenstände auswählen, Bewegungen detaillieren), was die Transparenz, Robustheit und Anpassungsfähigkeit an neue Szenarien verbessert.
Gemini Robotics 1.5 lernt aus vielfältigen Datensätzen über verschiedene Ausprägungen (ALOHA, bi-arm Franka, Apollo-Humanoide), was einen Zero-Shot-Fähigkeitstransfer ohne Spezialisierung ermöglicht. Zum Beispiel funktionieren Aufgaben, die auf einem Roboter trainiert wurden, auch auf anderen, was die Datenknappheit anspricht und die Effizienz steigert.
Gemini Robotics-ER 1.5 setzt einen neuen Maßstab in der verkörperten Argumentation und glänzt bei räumlichen, zeitlichen und semantischen Aufgaben wie Zeigen, Fortschrittsabschätzung und Aufgabenplanung. Es bietet eine hochgradige verkörperte Argumentation und generalisiert auf eine offene Welt von Objekten und Szenen.
22,75K