Google DeepMind představuje Gemini Robotics 1.5, který umožňuje robotům vnímat, plánovat, myslet, používat nástroje a jednat na složitých úkolech. Agentický rámec zahrnuje: ⦿ Gemini Robotics-ER 1.5 (VLM): Orchestruje ztělesněné uvažování a plánování na vysoké úrovni. ⦿ Gemini Robotics 1.5 (VLA): Převádí vizuální prvky a pokyny poskytované ER 1.5 na akce.
Model VLA "přemýšlí, než jedná" pomocí víceúrovňového monologu v přirozeném jazyce. Rozděluje úkoly, jako je "třídění prádla podle barvy" do kroků (např. identifikace barev, výběr položek, detailní pohyby), zlepšení průhlednosti, robustnosti a přizpůsobivosti novým scénářům.
Gemini Robotics 1.5 se učí z různých datových sad napříč provedeními (ALOHA, dvouramenná Franka, humanoid Apollo), což umožňuje přenos dovedností bez specializace. Například úkoly trénované na jednom robotu fungují na jiných, řeší nedostatek dat a zvyšují efektivitu.
Gemini Robotics-ER 1.5 nastavuje nový standard v ztělesněném uvažování a vyniká v prostorových, časových a sémantických úlohách, jako je ukazování, odhad pokroku a plánování úkolů. Poskytuje ztělesněné uvažování na vysoké úrovni, zobecňující na otevřený svět objektů a scén.
19,25K