Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Olen kuullut tämän paljon viime aikoina: "Koulutimme robottimme yhteen esineeseen ja se yleistyi uudeksi objektiksi - nämä uudet VLA-mallit ovat hulluja!"
Puhutaanpa siitä, mitä VLA-mallisi "A" (Action) -osassa todella tapahtuu.
Vision ja kielen komponentit? Ne ovat uskomattomia. Ne ovat valmiiksi koulutettuja Internet-mittakaavan tietoihin, ja he ymmärtävät esineitä, tilasuhteita ja tehtäväohjeita paremmin kuin koskaan.
Mutta Action-komponentti? Se opitaan edelleen tyhjästä robottiesittelyissäsi.
Tässä on todellisuus: VLA-mallissasi on Internet-mittakaavan käsitys siitä, miltä ruuvimeisseli näyttää ja mitä "kiristä ruuvi" tarkoittaa. Mutta varsinainen motorinen kuvio "pyörittää rannetta samalla kun painetaan alaspäin"? Se tulee 500 robottidemostasi.
Mitä tämä tarkoittaa "yleistämisen" kannalta:
• Näön yleistäminen: Tunnistaa uudet kohteet välittömästi (esikoulutuksen ansiosta)
• Kielen yleistäminen: Ymmärtää uudet tehtäväohjeet (esikoulutuksen ansiosta)
• Toiminnan yleistäminen: Rajoittuu edelleen robottikoulutuksen aikana havaittuihin motorisiin malleihin
Pyydä samaa robottia "avaamaan pullon korkki" ja se epäonnistuu, koska:
• Näkö: Tunnistaa pullon ja korkin
• Kieli: Ymmärtää "ruuvaa irti"
• Toiminta: En ole koskaan oppinut "kierrä vetäessäsi" -moottorikuviota
Kova totuus VLA-malleista:
"VL" antaa sinulle uskomattoman nollalaukauksen ymmärryksen. "A" vaatii vielä tehtäväkohtaisia demonstraatioita.
Olemme murtaneet havainto- ja päättelyongelman. Emme ole ratkaisseet motorisen yleistyksen ongelmaa.
45,95K
Johtavat
Rankkaus
Suosikit