DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Izinkan saya melukiskan gambarannya. Katakanlah Anda ingin Humanoid memasak makan malam yang lezat saat Anda duduk di sofa dan menonton Netflix. Bagaimana ini akan bekerja pada tingkat teknis karena Humanoid membutuhkan beberapa otak untuk membuat makan malam Anda? Kecerdasan robot tidak monolitik, tetapi tim modul AI yang menggabungkan musyawarah lambat dengan refleks cepat (desain Sistem 2 + Sistem 1). Model vision-language-action (VLA) membagi kognisi menjadi modul penalaran dan kebijakan kontrol reaktif. Karena robot berjalan pada arsitektur kognitif multi otak, ia akan memutar operator "koki" khusus untuk menangani permintaan Anda, seperti mensurvei dapur dengan kameranya, mencari resep, lalu mengarahkan anggota tubuhnya untuk mulai memotong sayuran. Otak-otak ini dapat dipecah menjadi operator berikut. Otak #1: Untuk memasak makan malam yang lezat, Anda memerlukan perencana eksekutif. Ini menafsirkan perintah Anda ("menyiapkan makan malam") untuk menentukan tujuan (membuat pasta). Dengan menggunakan pemahaman bahasa alami, ia memutuskan sub tugas apa yang diperlukan (menemukan bahan, memasak pasta, mengatur meja, dll) dan otak lain mana yang harus menangani masing-masing. Ini mengoordinasikan sistem multi agen: mengaktifkan modul khusus untuk penglihatan, pengetahuan, dan gerakan. Otak deliberatif ini (sistem 2) membuat keputusan tingkat atas, menjabarkan pendekatan, dan mengalokasikan tanggung jawab sebelum gerakan fisik dimulai. Otak #2: Sekarang setelah Anda memiliki resepnya, Anda memerlukan mata robot dan kesadaran spasial. Ini memproses umpan kamera untuk mengidentifikasi bahan, alat, dan lokasinya di dapur. Menggunakan visi komputer canggih, ia melihat talenan, sayuran di lemari es, pisau di meja, dll. Ini membangun peta 3D lingkungan dan melacak objek yang relevan (seperti di mana garam atau wajan berada). Otak persepsi ini (Sistem 2) berjalan lebih lambat daripada refleks, tetapi memberikan konteks adegan yang akurat untuk perencanaan. Dengan mengenali semua bagian yang terlibat, itu mendidik robot di dunia nyata. Otak #3: Otak ini bertindak sebagai basis pengetahuan dan memori robot (Sistem 2). Ini mengambil dan mengurai informasi yang diperlukan untuk tugas tersebut, dalam hal ini, resep yang sesuai dan instruksi memasak. Mungkin menanyakan buku masak online atau database internalnya untuk resep pasta, lalu menafsirkan langkah-langkahnya (merebus air, memotong bawang putih, dll). Ini mengingatkan fakta tentang dapur (seperti di mana rempah-rempah disimpan) dan pengalaman memasak masa lalu. Pada dasarnya, memberikan pemahaman semantik dan pengetahuan dunia. Kemudian menghitung instruksi abstrak (karamelisasi bawang) menjadi parameter konkret (suhu, waktu) yang dapat dijalankan robot, memastikan rencana tersebut selaras dengan preferensi Anda. Otak #4: Dengan tujuan dan lingkungan yang diklarifikasi, kami telah menyusun rencana permainan yang terperinci. Ini memecah tujuan tingkat tinggi menjadi tindakan yang teratur dan langkah bersyarat. Ini menjadwalkan tugas (terkadang secara paralel, seperti memanaskan oven saat memotong sayuran) dan menetapkan tonggak (air matang, saus siap). Ini juga melacak kemajuan dan dapat merencanakan ulang dengan cepat jika ada sesuatu yang berubah (katakanlah bahan hilang). Kemudian menyerahkan urutan aksi ini ke otak tingkat gerak untuk dieksekusi. Otak Sistem 2 lainnya. Otak #5: Saatnya beralih dari arsitektur Sistem 2 dan pindah ke Sistem 1, menerjemahkan rencana ke dalam gerakan robot beton. Untuk setiap tindakan (seperti "berjalan ke lemari es" atau "potong wortel"), ini menghasilkan lintasan yang berlaku untuk tubuh dan anggota tubuh robot. Modul ini menangani perencanaan jalur dan kinematika terbalik, menghitung jalur dan sudut sambungan sehingga robot bergerak dengan lancar tanpa tabrakan. Ini biasanya menerapkan kebijakan motorik yang dipelajari (seperti kebijakan transformator difusi) untuk menghasilkan gerakan fluida untuk tugas-tugas yang kompleks. Jika Brain 4 mengatakan untuk mengambil panci dari lemari es, Brain 5 mencari tahu cara membawa robot ke sana dan bagaimana menggenggam pot. Di mana ia mengkoordinasikan beberapa anggota badan saat dibutuhkan (menggunakan dua tangan untuk mengangkat panci yang berat misalnya). Niat tingkat tinggi berubah menjadi konvergensi perangkat keras dan perangkat lunak yang bergerak bergerak Otak #6: Setelah rencana gerak ditetapkan, saatnya untuk melaksanakannya. Otak kontrol Sistem 1 tingkat rendah ini menggerakkan aktuator robot (motor dan sambungan). Ini terus membaca sensor (sudut sendi, gaya, keseimbangan) dan mengirimkan sinyal kontrol untuk mengikuti lintasan. Menggunakan loop kontrol (pengontrol PID, kontrol prediktif model, dll) untuk menjaga presisi, jika robot mulai terbalik atau pisau menyimpang dari jalur, itu langsung terkoreksi. Ini adalah refleks dan keterampilan motorik halus yang beroperasi pada kecepatan milidetik. Saat robot mengiris wortel, Brain 6 memodulasi gaya dan menyesuaikan sudut bilah untuk mendapatkan irisan yang seragam tanpa tergelincir. Ini seperti "memori otot" bawah sadar dari sistem, menangani detail tingkat rendah secara otomatis. Otak #7: Bagian terakhir adalah berfokus pada perbaikan berkelanjutan. Selama dan setelah persiapan makan malam, ini menganalisis kinerja. Apakah itu menumpahkan sesuatu? Apakah terlalu lambat dalam mengaduk? Modul ini menggunakan pembelajaran penguatan dan kalibrasi mandiri untuk memperbarui model robot dari waktu ke waktu. Keterampilan inti robot awalnya dilatih pada demonstrasi manusia besar-besaran dan coba-coba, tetapi Anda harus terus menyempurnakannya. Jika menemukan teknik potong dadu yang lebih efisien atau pegangan spatula yang lebih baik, ia memperbarui kebijakannya sehingga makan malam berikutnya berjalan lebih lancar. Otak adaptif ini memungkinkan humanoid menjadi lebih terampil dengan pengalaman. Codec: Operator Beraksi Bagaimana arsitektur Codec mengikat otak-otak ini bersama-sama? Setiap "otak" berjalan sebagai modul Operator terpisah dalam sistem AI robot. Orkestrasi Fabric Codec menyediakan setiap operator dengan lingkungan kotak pasir yang aman. Artinya, modul visi, modul bahasa/logika, modul perencanaan, dll, semuanya berjalan secara terpisah namun berkomunikasi melalui antarmuka yang ditentukan. Jika satu modul mogok atau mengalami kesalahan, itu tidak akan menjatuhkan seluruh robot, yang lain tetap berjalan dengan aman. Desain modular ini juga memudahkan untuk memperbarui atau menukar satu otak tanpa memengaruhi sisanya, dan untuk menambahkan operator khusus baru sesuai kebutuhan. Pendekatan operator ini secara langsung mendukung kerangka kerja multi otak. Saat Anda meminta makan malam, otak eksekutif robot (Otak 1) dapat memutar operator "koki" yang didedikasikan untuk tugas itu, sementara operator lain menangani persepsi dan kontrol secara paralel. Setiap operator hanya memiliki akses ke sumber daya yang dibutuhkannya (misalnya agen resep mungkin memiliki akses internet untuk mengambil instruksi, sedangkan agen kontrol hanya berinteraksi dengan perangkat keras), yang meningkatkan keamanan. Desain modular codec yang dilapisi pasir adalah perekat untuk semua keterampilan yang beragam ini bekerja sama, mirip dengan layanan mikro dalam perangkat lunak, memungkinkan humanoid untuk menangani tugas-tugas kompleks seperti memasak makan malam dari awal dengan andal. Inilah sebabnya mengapa $CODEC akan menjadi infra utama untuk Robotika.

Anda akan melihat model fondasi untuk Humanoid secara terus-menerus menggunakan arsitektur gaya Sistem 2 + Sistem 1 yang sebenarnya terinspirasi oleh kognisi manusia. Sebagian besar model vision-language-action (VLA) saat ini dibangun sebagai sistem multimoda terpusat yang menangani persepsi, bahasa, dan tindakan dalam satu jaringan. Infrastruktur Codec sempurna untuk ini karena memperlakukan setiap Operator sebagai modul kotak pasir. Artinya, Anda dapat memutar beberapa Operator secara paralel, masing-masing menjalankan model atau tugasnya sendiri, sambil menjaganya tetap dienkapsulasi dan dikoordinasikan melalui arsitektur yang sama. Robot dan Humanoid pada umumnya biasanya memiliki banyak otak, di mana satu Operator dapat menangani pemrosesan penglihatan, keseimbangan penanganan lainnya, yang lain melakukan perencanaan tingkat tinggi, dll, yang semuanya dapat dikoordinasikan melalui sistem Codec. Model dasar Nvidia Issac GR00T N1 menggunakan dua modul arsitektur Sistem 2 + Sistem 1. Sistem 2 adalah model bahasa penglihatan (versi PaLM atau serupa, multimodal) yang mengamati dunia melalui kamera robot dan mendengarkan instruksi, kemudian membuat rencana tingkat tinggi. Sistem 1 adalah kebijakan transformator difusi yang mengambil rencana itu dan mengubahnya menjadi gerakan kontinu secara real time. Anda dapat menganggap Sistem 2 sebagai otak deliberatif dan Sistem 1 sebagai pengontrol tubuh naluriah. Sistem 2 mungkin menghasilkan sesuatu seperti "pindah ke cangkir merah, genggam, lalu letakkan di rak," dan Sistem 1 akan menghasilkan lintasan sendi terperinci untuk kaki dan lengan untuk menjalankan setiap langkah dengan lancar. Sistem 1 dilatih pada banyak data lintasan (termasuk demo yang dioperasikan melalui jarak manusia dan data simulasi fisika) untuk menguasai gerakan halus, sedangkan Sistem 2 dibangun di atas transformator dengan prapelatihan internet (untuk pemahaman semantik). Pemisahan penalaran vs. akting ini sangat kuat bagi NVIDIA. Ini berarti GR00T dapat menangani tugas-tugas cakrawala panjang yang memerlukan perencanaan (berkat Sistem 2) dan juga bereaksi secara instan terhadap gangguan (berkat Sistem 1). Jika robot membawa baki dan seseorang menyenggol baki, Sistem 1 dapat segera memperbaiki keseimbangan daripada menunggu Sistem 2 yang lebih lambat menyadarinya. GR00T N1 adalah salah satu model fondasi robotika pertama yang tersedia secara terbuka, dan dengan cepat mendapatkan daya tarik. Di luar kotak, ia menunjukkan keterampilan di banyak tugas dalam simulasi, ia dapat menggenggam dan memindahkan objek dengan satu atau dua tangan, item tangan di antara tangannya, dan melakukan tugas multi langkah tanpa pemrograman khusus tugas apa pun. Karena tidak terikat pada satu perwujudan, pengembang menunjukkannya bekerja pada robot yang berbeda dengan penyesuaian minimal. Hal ini juga berlaku untuk Helix (model fondasi Figure) yang menggunakan jenis arsitektur ini. Helix memungkinkan dua robot atau beberapa keterampilan untuk beroperasi, Codec dapat mengaktifkan otak multi agen dengan menjalankan beberapa Operator yang berbagi informasi. Desain "pod terisolasi" ini berarti setiap komponen dapat dikhususkan (seperti Sistem 1 vs Sistem 2) dan bahkan dikembangkan oleh tim yang berbeda, namun mereka dapat bekerja sama. Ini adalah pendekatan yang unik dalam arti bahwa Codec sedang membangun tumpukan perangkat lunak yang dalam untuk mendukung kecerdasan modular dan terdistribusi ini, sedangkan kebanyakan yang lain hanya berfokus pada model AI itu sendiri. Codec juga memanfaatkan model pra terlatih yang besar. Jika Anda membangun aplikasi robot di atasnya, Anda dapat mencolokkan model pondasi OpenVLA atau Pi Zero sebagai bagian dari Operator Anda. Codec menyediakan konektor, akses mudah ke umpan kamera atau API robot, sehingga Anda tidak perlu menulis kode tingkat rendah untuk mendapatkan gambar dari kamera robot atau mengirim perintah kecepatan ke motornya. Semuanya diabstraksikan di balik SDK tingkat tinggi. Salah satu alasan saya begitu bullish pada Codec adalah persis seperti yang saya uraikan di atas. Mereka tidak mengejar narasi, arsitekturnya dibangun untuk menjadi perekat antara model fondasi, dan tanpa gesekan mendukung sistem multi otak, yang sangat penting untuk kompleksitas humanoid. Karena kita masih sangat awal dalam tren ini, ada baiknya mempelajari desain para pemimpin industri dan memahami mengapa mereka bekerja. Robotika sulit dipahami mengingat lapisan di seluruh perangkat keras dan perangkat lunak, tetapi begitu Anda belajar memecah setiap bagian sepotong demi sepotong, itu menjadi jauh lebih mudah untuk dicerna. Ini mungkin terasa seperti membuang-buang waktu sekarang, tetapi ini adalah metode yang sama yang memberi saya awal selama AI szn dan mengapa saya berada di awal begitu banyak proyek. Menjadi disiplin dan pelajari komponen mana yang dapat hidup berdampingan dan komponen mana yang tidak diskalakan. Ini akan membayar dividen selama beberapa bulan mendatang. Deca Triliun ( $CODEC ) berkode.

7,54K

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal