Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nhà điều hành $CODEC là gì?
Đó là nơi các mô hình Vision-Language-Action cuối cùng đã làm cho AI trở nên hữu ích cho công việc thực tế.
Operator là một tác nhân phần mềm tự trị được hỗ trợ bởi các mô hình VLA thực hiện các nhiệm vụ thông qua một chu kỳ nhận thức-lý luận-hành động liên tục.
LLM có thể suy nghĩ và nói chuyện một cách xuất sắc, nhưng họ không thể trỏ, nhấp hoặc lấy bất cứ thứ gì. Chúng là những động cơ lý luận thuần túy không có nền tảng trong thế giới vật lý.
VLA kết hợp nhận thức thị giác, hiểu ngôn ngữ và đầu ra hành động có cấu trúc trong một lần chuyển tiếp. Trong khi LLM mô tả những gì sẽ xảy ra, mô hình VLA thực sự làm cho nó xảy ra bằng cách phát ra tọa độ, tín hiệu điều khiển và các lệnh thực thi.
Quy trình làm việc của Operator là:
- Nhận thức: chụp ảnh màn hình, nguồn cấp dữ liệu máy ảnh hoặc dữ liệu cảm biến.
- Lý luận: xử lý các quan sát cùng với các hướng dẫn ngôn ngữ tự nhiên bằng cách sử dụng mô hình VLA.
- Hành động: thực hiện các quyết định thông qua tương tác giao diện người dùng hoặc điều khiển phần cứng—tất cả trong một vòng lặp liên tục.
Ví dụ: LLM so với nhà khai thác được hỗ trợ bởi mô hình VLA
Lên lịch cuộc họp
LLM: Cung cấp giải thích chi tiết về quản lý lịch, phác thảo các bước để lên lịch cuộc họp.
Nhà điều hành với mô hình VLA:
- Chụp màn hình của người dùng.
- Xác định ứng dụng lịch (ví dụ: Outlook, Lịch Google).
- Điều hướng đến thứ Năm, tạo cuộc họp lúc 2 giờ chiều và thêm người tham dự.
- Tự động thích ứng với các thay đổi giao diện người dùng.
Robot: Phân loại đối tượng
LLM: Tạo các hướng dẫn bằng văn bản chính xác để sắp xếp các đối tượng, chẳng hạn như xác định và sắp xếp các thành phần màu đỏ.
Nhà điều hành với mô hình VLA:
- Quan sát không gian làm việc trong thời gian thực.
- Xác định các thành phần màu đỏ giữa các đối tượng hỗn hợp.
- Lập kế hoạch quỹ đạo không va chạm cho cánh tay robot.
- Thực hiện các thao tác chọn và đặt, tự động điều chỉnh theo các vị trí và hướng mới.
Các mô hình VLA cuối cùng đã thu hẹp khoảng cách giữa AI có thể suy luận về thế giới và AI thực sự có thể thay đổi nó. Chúng là những gì biến đổi tự động hóa từ tuân thủ các quy tắc mong manh thành giải quyết vấn đề thích ứng — những người lao động thông minh.
"Các kịch bản truyền thống bị hỏng khi môi trường thay đổi, nhưng Người vận hành sử dụng sự hiểu biết trực quan để thích ứng trong thời gian thực, xử lý các ngoại lệ thay vì gặp sự cố trên chúng."

1,63K
Hàng đầu
Thứ hạng
Yêu thích