Google DeepMind esittelee Gemini Robotics 1.5:n, jonka avulla robotit voivat havaita, suunnitella, ajatella, käyttää työkaluja ja toimia monimutkaisissa tehtävissä. Agenttinen kehys sisältää: ⦿ Gemini Robotics-ER 1.5 (VLM): Orkestroi korkean tason kehollista päättelyä ja suunnittelua. ⦿ Gemini Robotics 1.5 (VLA): Muuntaa ER 1.5:n tarjoamat visuaaliset kuvat ja ohjeet toimiksi.
VLA-malli "ajattelee ennen kuin toimii" käyttämällä monitasoista luonnollisen kielen monologia. Se jakaa tehtävät, kuten "pyykin lajittelu värin mukaan", vaiheisiin (esim. värien tunnistaminen, kohteiden poimiminen, yksityiskohtien liikkeet), mikä parantaa läpinäkyvyyttä, kestävyyttä ja sopeutumiskykyä uusiin skenaarioihin.
Gemini Robotics 1.5 oppii erilaisista tietojoukoista eri toteutusmuodoissa (ALOHA, kaksivartinen Franka, Apollo humanoidi), mikä mahdollistaa nollalaukauksen taitojen siirron ilman erikoistumista. Esimerkiksi yhdellä robotilla koulutetut tehtävät toimivat toisissa, korjaavat datan niukkuutta ja parantavat tehokkuutta.
Gemini Robotics-ER 1.5 asettaa uuden vertailukohdan kehollisessa päättelyssä, ja se on erinomainen tilallisissa, ajallisissa ja semanttisissa tehtävissä, kuten osoittamisessa, edistymisen arvioinnissa ja tehtävien suunnittelussa. Se tarjoaa korkeatasoista kehollista päättelyä, joka yleistää esineiden ja kohtausten avoimeen maailmaan.
19,24K