DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Olen kuullut tämän paljon viime aikoina: "Koulutimme robottimme yhteen esineeseen ja se yleistyi uudeksi objektiksi - nämä uudet VLA-mallit ovat hulluja!" Puhutaanpa siitä, mitä VLA-mallisi "A" (Action) -osassa todella tapahtuu. Vision ja kielen komponentit? Ne ovat uskomattomia. Ne ovat valmiiksi koulutettuja Internet-mittakaavan tietoihin, ja he ymmärtävät esineitä, tilasuhteita ja tehtäväohjeita paremmin kuin koskaan. Mutta Action-komponentti? Se opitaan edelleen tyhjästä robottiesittelyissäsi. Tässä on todellisuus: VLA-mallissasi on Internet-mittakaavan käsitys siitä, miltä ruuvimeisseli näyttää ja mitä "kiristä ruuvi" tarkoittaa. Mutta varsinainen motorinen kuvio "pyörittää rannetta samalla kun painetaan alaspäin"? Se tulee 500 robottidemostasi. Mitä tämä tarkoittaa "yleistämisen" kannalta: • Näön yleistäminen: Tunnistaa uudet kohteet välittömästi (esikoulutuksen ansiosta) • Kielen yleistäminen: Ymmärtää uudet tehtäväohjeet (esikoulutuksen ansiosta) • Toiminnan yleistäminen: Rajoittuu edelleen robottikoulutuksen aikana havaittuihin motorisiin malleihin Pyydä samaa robottia "avaamaan pullon korkki" ja se epäonnistuu, koska: • Näkö: Tunnistaa pullon ja korkin • Kieli: Ymmärtää "ruuvaa irti" • Toiminta: En ole koskaan oppinut "kierrä vetäessäsi" -moottorikuviota Kova totuus VLA-malleista: "VL" antaa sinulle uskomattoman nollalaukauksen ymmärryksen. "A" vaatii vielä tehtäväkohtaisia demonstraatioita. Olemme murtaneet havainto- ja päättelyongelman. Emme ole ratkaisseet motorisen yleistyksen ongelmaa.

45,95K

Johtavat

Rankkaus

Suosikit

Ketjussa trendaava

Trendaa X:ssä

Viimeisimmät suosituimmat rahoitukset

Merkittävin