DApp Store | Centrum Web3 pro události a hry

Populární témata

Google DeepMind představuje Gemini Robotics 1.5, který umožňuje robotům vnímat, plánovat, myslet, používat nástroje a jednat na složitých úkolech. Agentický rámec zahrnuje: ⦿ Gemini Robotics-ER 1.5 (VLM): Orchestruje ztělesněné uvažování a plánování na vysoké úrovni. ⦿ Gemini Robotics 1.5 (VLA): Převádí vizuální prvky a pokyny poskytované ER 1.5 na akce.

Model VLA "přemýšlí, než jedná" pomocí víceúrovňového monologu v přirozeném jazyce. Rozděluje úkoly, jako je "třídění prádla podle barvy" do kroků (např. identifikace barev, výběr položek, detailní pohyby), zlepšení průhlednosti, robustnosti a přizpůsobivosti novým scénářům.

Gemini Robotics 1.5 se učí z různých datových sad napříč provedeními (ALOHA, dvouramenná Franka, humanoid Apollo), což umožňuje přenos dovedností bez specializace. Například úkoly trénované na jednom robotu fungují na jiných, řeší nedostatek dat a zvyšují efektivitu.

Gemini Robotics-ER 1.5 nastavuje nový standard v ztělesněném uvažování a vyniká v prostorových, časových a sémantických úlohách, jako je ukazování, odhad pokroku a plánování úkolů. Poskytuje ztělesněné uvažování na vysoké úrovni, zobecňující na otevřený svět objektů a scén.

19,25K

Top

Hodnocení

Oblíbené