Olen kuullut tämän paljon viime aikoina: "Koulutimme robottimme yhteen esineeseen ja se yleistyi uudeksi objektiksi - nämä uudet VLA-mallit ovat hulluja!" Puhutaanpa siitä, mitä VLA-mallisi "A" (Action) -osassa todella tapahtuu. Vision ja kielen komponentit? Ne ovat uskomattomia. Ne ovat valmiiksi koulutettuja Internet-mittakaavan tietoihin, ja he ymmärtävät esineitä, tilasuhteita ja tehtäväohjeita paremmin kuin koskaan. Mutta Action-komponentti? Se opitaan edelleen tyhjästä robottiesittelyissäsi. Tässä on todellisuus: VLA-mallissasi on Internet-mittakaavan käsitys siitä, miltä ruuvimeisseli näyttää ja mitä "kiristä ruuvi" tarkoittaa. Mutta varsinainen motorinen kuvio "pyörittää rannetta samalla kun painetaan alaspäin"? Se tulee 500 robottidemostasi. Mitä tämä tarkoittaa "yleistämisen" kannalta:   • Näön yleistäminen: Tunnistaa uudet kohteet välittömästi (esikoulutuksen ansiosta)   • Kielen yleistäminen: Ymmärtää uudet tehtäväohjeet (esikoulutuksen ansiosta)   • Toiminnan yleistäminen: Rajoittuu edelleen robottikoulutuksen aikana havaittuihin motorisiin malleihin Pyydä samaa robottia "avaamaan pullon korkki" ja se epäonnistuu, koska: • Näkö: Tunnistaa pullon ja korkin • Kieli: Ymmärtää "ruuvaa irti" • Toiminta: En ole koskaan oppinut "kierrä vetäessäsi" -moottorikuviota Kova totuus VLA-malleista: "VL" antaa sinulle uskomattoman nollalaukauksen ymmärryksen. "A" vaatii vielä tehtäväkohtaisia demonstraatioita. Olemme murtaneet havainto- ja päättelyongelman. Emme ole ratkaisseet motorisen yleistyksen ongelmaa.
45,95K