Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hãy để tôi vẽ nên bức tranh.
Giả sử bạn muốn một người máy hình người nấu một bữa tối ngon miệng trong khi bạn ngồi trên ghế sofa và xem Netflix.
Điều này sẽ hoạt động như thế nào ở cấp độ kỹ thuật khi người máy cần nhiều bộ não để làm bữa tối cho bạn?
Trí tuệ của robot không phải là đơn nhất, mà là một đội ngũ các mô-đun AI kết hợp giữa sự suy nghĩ chậm rãi và phản xạ nhanh (thiết kế Hệ thống 2 + Hệ thống 1).
Mô hình thị giác-ngôn ngữ-hành động (VLA) của nó chia nhận thức thành một mô-đun lý luận và một chính sách điều khiển phản ứng.
Khi robot hoạt động trên một kiến trúc nhận thức đa bộ não, nó sẽ khởi động một “đầu bếp” điều hành chuyên dụng để xử lý yêu cầu của bạn, chẳng hạn như khảo sát bếp với các camera của nó, tìm kiếm một công thức, sau đó chỉ đạo các chi của nó bắt đầu thái rau.
Những bộ não này có thể được chia thành các điều hành viên sau đây.
Bộ não #1:
Để nấu một bữa tối ngon miệng, bạn cần một nhà lập kế hoạch điều hành. Nó diễn giải lệnh của bạn (“chuẩn bị bữa tối”) để xác định mục tiêu (làm mì). Sử dụng hiểu biết ngôn ngữ tự nhiên, nó quyết định các nhiệm vụ phụ cần thiết (tìm nguyên liệu, nấu mì, dọn bàn, v.v.) và bộ não nào khác nên xử lý từng nhiệm vụ.
Nó phối hợp hệ thống đa tác nhân: kích hoạt các mô-đun chuyên biệt cho thị giác, kiến thức và chuyển động. Bộ não suy nghĩ này (hệ thống 2) đưa ra các quyết định cấp cao, lập kế hoạch tiếp cận và phân bổ trách nhiệm trước khi bất kỳ chuyển động vật lý nào bắt đầu.
Bộ não #2:
Bây giờ bạn đã có công thức, bạn sẽ cần một số mắt robot và nhận thức không gian. Nó xử lý các luồng camera để xác định nguyên liệu, công cụ và vị trí của chúng trong bếp. Sử dụng thị giác máy tính tiên tiến, nó nhìn thấy thớt, rau trong tủ lạnh, dao trên bàn, v.v.
Nó xây dựng một bản đồ 3D của môi trường và theo dõi các đối tượng liên quan (như nơi muối hoặc chảo). Bộ não cảm nhận này (Hệ thống 2) hoạt động chậm hơn phản xạ, nhưng cung cấp bối cảnh chính xác cho việc lập kế hoạch. Bằng cách nhận diện tất cả các phần liên quan, nó giáo dục robot trong thế giới thực.
Bộ não #3:
Bộ não này hoạt động như cơ sở kiến thức và trí nhớ của robot (Hệ thống 2). Nó truy xuất và phân tích thông tin cần thiết cho nhiệm vụ, trong trường hợp này, một công thức và hướng dẫn nấu ăn phù hợp. Nó có thể truy vấn một cuốn sách nấu ăn trực tuyến hoặc cơ sở dữ liệu nội bộ của nó để tìm công thức mì, sau đó diễn giải các bước (đun nước, thái tỏi, v.v.).
Nó nhớ các thông tin về bếp (như nơi để gia vị) và các kinh nghiệm nấu ăn trước đó. Về cơ bản, cung cấp sự hiểu biết ngữ nghĩa và kiến thức thế giới. Sau đó, nó tính toán các hướng dẫn trừu tượng (caramelize hành) thành các tham số cụ thể (nhiệt độ, thời gian) mà robot có thể thực hiện, đảm bảo kế hoạch phù hợp với sở thích của bạn.
Bộ não #4:
Với mục tiêu và môi trường đã được làm rõ, chúng tôi đã xây dựng một kế hoạch chi tiết. Nó phân chia mục tiêu cấp cao thành các hành động có thứ tự và các bước điều kiện. Nó lập lịch các nhiệm vụ (đôi khi song song, như làm nóng lò trong khi thái rau) và đặt ra các cột mốc (nước đã sôi, nước sốt đã sẵn sàng).
Nó cũng theo dõi tiến độ và có thể lập kế hoạch lại ngay lập tức nếu có điều gì thay đổi (ví dụ, một nguyên liệu bị thiếu). Sau đó, nó chuyển giao chuỗi hành động này cho các bộ não cấp chuyển động để thực hiện. Một bộ não Hệ thống 2 khác.
Bộ não #5:
Đến lúc chuyển từ kiến trúc Hệ thống 2 sang Hệ thống 1, chuyển đổi kế hoạch thành các chuyển động cụ thể của robot. Đối với mỗi hành động (như “đi đến tủ lạnh” hoặc “thái cà rốt”), nó tạo ra các quỹ đạo áp dụng cho cơ thể và chi của robot.
Mô-đun này xử lý lập kế hoạch đường đi và động học ngược, tính toán các đường đi và góc khớp để robot di chuyển mượt mà mà không va chạm. Nó thường áp dụng các chính sách động học đã học (như chính sách biến đổi khuếch tán) để tạo ra các chuyển động mượt mà cho các nhiệm vụ phức tạp.
Nếu Bộ não 4 nói để lấy một cái nồi từ tủ lạnh, Bộ não 5 sẽ tìm ra cách đưa robot đến đó và cách nắm lấy cái nồi. Nơi mà nó phối hợp nhiều chi khi cần thiết (sử dụng hai tay để nâng một cái nồi nặng, chẳng hạn). Ý định cấp cao chuyển thành sự hội tụ của phần cứng và phần mềm đang chuyển động.
Bộ não #6:
Khi một kế hoạch chuyển động đã được thiết lập, đã đến lúc thực hiện. Bộ não điều khiển cấp thấp Hệ thống 1 này điều khiển các bộ phận hoạt động của robot (động cơ và khớp). Nó liên tục đọc cảm biến (góc khớp, lực, cân bằng) và gửi tín hiệu điều khiển để theo dõi quỹ đạo.
Sử dụng các vòng điều khiển (bộ điều khiển PID, điều khiển dự đoán mô hình, v.v.) để giữ độ chính xác, nếu robot bắt đầu nghiêng hoặc một con dao lệch hướng, nó sẽ điều chỉnh ngay lập tức. Đây là những phản xạ và kỹ năng vận động tinh vi hoạt động ở tốc độ mili giây.
Khi robot thái một củ cà rốt, Bộ não 6 điều chỉnh lực và điều chỉnh góc lưỡi dao để có những lát đồng đều mà không bị trượt. Nó giống như “trí nhớ cơ bắp” tiềm thức của hệ thống, xử lý các chi tiết cấp thấp một cách tự động.
Bộ não #7:
Mảnh ghép cuối cùng là tập trung vào việc cải tiến liên tục. Trong và sau khi chuẩn bị bữa tối, nó phân tích hiệu suất. Nó có làm đổ thứ gì không? Nó có quá chậm khi khuấy không?
Mô-đun này sử dụng học tăng cường và tự hiệu chỉnh để cập nhật các mô hình của robot theo thời gian. Các kỹ năng cốt lõi của robot ban đầu được đào tạo trên các buổi trình diễn của con người khổng lồ và thử nghiệm và sai sót, nhưng bạn cần liên tục tinh chỉnh chúng.
Nếu nó phát hiện ra một kỹ thuật thái hiệu quả hơn hoặc một cách cầm thìa tốt hơn, nó cập nhật chính sách của mình để bữa tối tiếp theo diễn ra suôn sẻ hơn. Bộ não thích ứng này cho phép người máy trở nên thành thạo hơn với kinh nghiệm.
Codec: Các điều hành viên trong hành động
Kiến trúc của Codec kết nối những bộ não này như thế nào? Mỗi “bộ não” hoạt động như một mô-đun Điều hành viên riêng biệt trong hệ thống AI của robot. Việc điều phối Fabric của Codec cung cấp cho mỗi điều hành viên môi trường an toàn, được cách ly riêng.
Có nghĩa là, mô-đun thị giác, mô-đun ngôn ngữ/logic, mô-đun lập kế hoạch, v.v., tất cả hoạt động trong sự cô lập nhưng giao tiếp thông qua các giao diện được xác định.
Nếu một mô-đun gặp sự cố hoặc có lỗi, nó sẽ không làm sập toàn bộ robot, các mô-đun khác vẫn hoạt động an toàn. Thiết kế mô-đun này cũng giúp dễ dàng cập nhật hoặc thay thế một bộ não mà không ảnh hưởng đến phần còn lại, và thêm các điều hành viên chuyên biệt mới khi cần thiết.
Cách tiếp cận điều hành viên này hỗ trợ trực tiếp cho khung đa bộ não. Khi bạn yêu cầu bữa tối, bộ não điều hành của robot (Bộ não 1) có thể khởi động một điều hành viên “đầu bếp” chuyên dụng cho nhiệm vụ đó, trong khi các điều hành viên khác xử lý nhận thức và điều khiển song song.
Mỗi điều hành viên chỉ có quyền truy cập vào các tài nguyên mà nó cần (ví dụ, tác nhân công thức có thể có quyền truy cập internet để lấy hướng dẫn, trong khi tác nhân điều khiển chỉ giao tiếp với phần cứng), điều này cải thiện độ an toàn.
Thiết kế mô-đun, được cách ly của Codec là keo dính cho tất cả những kỹ năng đa dạng này hoạt động cùng nhau, tương tự như microservices trong phần mềm, cho phép người máy xử lý đáng tin cậy các nhiệm vụ phức tạp như nấu bữa tối từ đầu.


18:30 23 thg 8
Bạn sẽ thấy các mô hình nền tảng cho Humanoids liên tục sử dụng kiến trúc kiểu Hệ thống 2 + Hệ thống 1, thực sự được lấy cảm hứng từ nhận thức của con người.
Hầu hết các mô hình thị giác-ngôn ngữ-hành động (VLA) hiện nay được xây dựng như các hệ thống đa phương thức tập trung, xử lý nhận thức, ngôn ngữ và hành động trong một mạng lưới duy nhất.
Cơ sở hạ tầng của Codec rất hoàn hảo cho điều này vì nó coi mỗi Operator như một mô-đun được cách ly. Điều này có nghĩa là bạn có thể khởi động nhiều Operator song song, mỗi cái chạy mô hình hoặc nhiệm vụ riêng của nó, trong khi vẫn giữ chúng được bao bọc và phối hợp thông qua cùng một kiến trúc.
Robot và Humanoids nói chung thường có nhiều bộ não, trong đó một Operator có thể xử lý thị giác, một cái khác xử lý cân bằng, một cái khác thực hiện lập kế hoạch cấp cao, v.v., tất cả đều có thể được phối hợp thông qua hệ thống của Codec.
Mô hình nền tảng của Nvidia, Issac GR00T N1, sử dụng kiến trúc hai mô-đun Hệ thống 2 + Hệ thống 1. Hệ thống 2 là một mô hình thị giác-ngôn ngữ (một phiên bản của PaLM hoặc tương tự, đa phương thức) quan sát thế giới qua camera của robot và lắng nghe các hướng dẫn, sau đó lập kế hoạch cấp cao.
Hệ thống 1 là một chính sách biến đổi khuếch tán, lấy kế hoạch đó và biến nó thành các chuyển động liên tục trong thời gian thực. Bạn có thể nghĩ về Hệ thống 2 như bộ não có suy nghĩ và Hệ thống 1 như bộ điều khiển cơ thể theo bản năng. Hệ thống 2 có thể xuất ra một cái gì đó như "di chuyển đến cốc đỏ, nắm lấy nó, sau đó đặt nó lên kệ," và Hệ thống 1 sẽ tạo ra các quỹ đạo khớp chi tiết cho chân và tay để thực hiện từng bước một cách mượt mà.
Hệ thống 1 đã được đào tạo trên hàng tấn dữ liệu quỹ đạo (bao gồm các bản demo điều khiển từ xa của con người và dữ liệu mô phỏng vật lý) để thành thạo các chuyển động tinh vi, trong khi Hệ thống 2 được xây dựng trên một biến thể của transformer với việc huấn luyện trước trên internet (để hiểu ngữ nghĩa).
Sự tách biệt giữa lý luận và hành động này rất mạnh mẽ đối với NVIDIA. Điều này có nghĩa là GR00T có thể xử lý các nhiệm vụ dài hạn yêu cầu lập kế hoạch (nhờ vào Hệ thống 2) và cũng phản ứng ngay lập tức với các tác động (nhờ vào Hệ thống 1).
Nếu một robot đang mang một khay và ai đó đẩy khay, Hệ thống 1 có thể điều chỉnh sự cân bằng ngay lập tức thay vì chờ Hệ thống 2 chậm hơn nhận ra.
GR00T N1 là một trong những mô hình nền tảng robot đầu tiên có sẵn công khai, và nó nhanh chóng thu hút sự chú ý.
Ngay từ đầu, nó đã thể hiện kỹ năng trong nhiều nhiệm vụ trong mô phỏng, nó có thể nắm và di chuyển các vật thể bằng một tay hoặc hai tay, chuyển đồ vật giữa các tay của nó, và thực hiện các công việc nhiều bước mà không cần lập trình cụ thể cho nhiệm vụ. Bởi vì nó không bị ràng buộc với một hình thức cụ thể, các nhà phát triển đã cho thấy nó hoạt động trên các robot khác nhau với những điều chỉnh tối thiểu.
Điều này cũng đúng với Helix (mô hình nền tảng của Figure) sử dụng loại kiến trúc này. Helix cho phép hai robot hoặc nhiều kỹ năng hoạt động, Codec có thể cho phép một bộ não đa tác nhân bằng cách chạy nhiều Operator chia sẻ thông tin.
Thiết kế "pod cách ly" này có nghĩa là mỗi thành phần có thể được chuyên môn hóa (giống như Hệ thống 1 so với Hệ thống 2) và thậm chí được phát triển bởi các nhóm khác nhau, nhưng họ vẫn có thể làm việc cùng nhau.
Đây là một cách tiếp cận độc nhất vô nhị trong việc Codec đang xây dựng ngăn xếp phần mềm sâu để hỗ trợ trí tuệ phân tán, trong khi hầu hết những người khác chỉ tập trung vào mô hình AI tự nó.
Codec cũng tận dụng các mô hình lớn đã được huấn luyện trước. Nếu bạn đang xây dựng một ứng dụng robot trên đó, bạn có thể cắm một mô hình nền tảng OpenVLA hoặc Pi Zero như một phần của Operator của bạn. Codec cung cấp các kết nối, truy cập dễ dàng vào các luồng camera hoặc API robot, vì vậy bạn không phải viết mã cấp thấp để lấy hình ảnh từ camera của robot hoặc gửi lệnh vận tốc đến động cơ của nó. Tất cả đều được trừu tượng hóa phía sau một SDK cấp cao.
Một trong những lý do tôi rất lạc quan về Codec chính là những gì tôi đã phác thảo ở trên. Họ không theo đuổi các câu chuyện, kiến trúc được xây dựng để là keo dán giữa các mô hình nền tảng, và nó hỗ trợ một cách trơn tru các hệ thống đa bộ não, điều này rất quan trọng cho độ phức tạp của humanoid.
Bởi vì chúng ta đang ở giai đoạn đầu của xu hướng này, thật đáng để nghiên cứu thiết kế của các nhà lãnh đạo trong ngành và hiểu tại sao chúng hoạt động. Robotics rất khó nắm bắt do các lớp phần cứng và phần mềm, nhưng một khi bạn học cách phân tích từng phần một, nó trở nên dễ tiêu hóa hơn nhiều.
Có thể cảm thấy như một sự lãng phí thời gian bây giờ, nhưng đây là phương pháp đã giúp tôi có lợi thế trong mùa AI và lý do tôi đã sớm tham gia vào nhiều dự án. Hãy trở nên kỷ luật và học cách các thành phần có thể đồng tồn tại và các thành phần nào không thể mở rộng.
Nó sẽ mang lại lợi ích trong những tháng tới.
Deca Trillions ( $CODEC ) đã được mã hóa.

7,55K
Hàng đầu
Thứ hạng
Yêu thích