Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

elvis

Xây dựng với các tác nhân AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Tôi chia sẻ thông tin chi tiết về cách xây dựng với LLM & AI Agents ⬇️

Làm thế nào để bạn áp dụng kỹ thuật xây dựng ngữ cảnh hiệu quả cho các tác nhân AI? Đọc điều này nếu bạn là một nhà phát triển AI đang xây dựng các tác nhân AI ngày hôm nay. Ngữ cảnh là vua! Và nó phải được xây dựng, không chỉ đơn thuần là được gợi ý. Tôi đã viết một vài ghi chú sau khi đọc qua hướng dẫn xây dựng ngữ cảnh tuyệt vời mới từ Anthropic: Xây dựng Ngữ cảnh so với Gợi ý Ngữ cảnh - Gợi ý Ngữ cảnh = viết và tổ chức hướng dẫn - Xây dựng Ngữ cảnh = biên soạn và duy trì các gợi ý, công cụ, lịch sử, và dữ liệu bên ngoài - Xây dựng Ngữ cảnh là một quá trình lặp đi lặp lại, và ngữ cảnh được biên soạn thường xuyên Tại sao Xây dựng Ngữ cảnh lại Quan trọng? - Ngân sách chú ý hữu hạn - Ngữ cảnh sẽ bị hỏng nếu ngữ cảnh trở nên quá lớn; xây dựng ngữ cảnh giúp - Mục tiêu: biên soạn và duy trì các token có tín hiệu cao tối thiểu Cấu trúc của Ngữ cảnh Hiệu quả - Gợi ý hệ thống: rõ ràng, ở độ cao đúng (không quá cụ thể hoặc quá mơ hồ) - Công cụ: giữ cho công cụ tối thiểu, sử dụng các tham số mô tả, và nhắm đến tính hiệu quả của token - Ví dụ Few-Shot: cung cấp các ví dụ đa dạng, điển hình về hành vi mong muốn - Lịch sử tin nhắn: cắt giảm một cách quyết liệt Chiến lược Truy xuất Ngữ cảnh - Truy xuất trước so với truy xuất đúng lúc; có một sự chuyển dịch hướng tới tìm kiếm tác nhân - Sử dụng các tham chiếu nhẹ (đường dẫn tệp, truy vấn đã lưu) để tải ngữ cảnh một cách động tại thời gian chạy - Cho phép khám phá ngữ cảnh liên quan thông qua việc khám phá - Chiến lược tìm kiếm hỗn hợp: tải trước + truy xuất một cách động Xây dựng Ngữ cảnh cho Các Nhiệm vụ Dài Hạn - Nén: tóm tắt & đặt lại ngữ cảnh khi các nhiệm vụ con được hoàn thành - Ghi chú có cấu trúc: sử dụng bộ nhớ bên ngoài bền vững (nhật ký, việc cần làm) - Tác nhân phụ: người điều phối phối hợp/lập kế hoạch, và các tác nhân phụ thực hiện nhiệm vụ với các cửa sổ ngữ cảnh riêng của chúng, sau đó được tóm tắt Tôi tin rằng đây là những nền tảng để xây dựng các đường ống ngữ cảnh có thể mở rộng và đáng tin cậy cho các tác nhân AI. Nhưng còn nhiều điều hơn thế nữa. Tôi chắc chắn rằng sẽ có nhiều chiến lược hiệu quả hơn xuất hiện khi thời gian trôi qua.

Làm thế nào để bạn huấn luyện các mô hình lý luận nhỏ một cách hiệu quả hơn? Đây là một vấn đề mà nhiều nhà phát triển AI gặp phải. Việc tinh chỉnh RL, nói chung, có xu hướng đạt đến điểm bão hòa, đặc biệt là đối với các mô hình 1–2B. Tôi nghĩ DeepSearch cung cấp một cách tiếp cận rất rõ ràng ở đây. Nó lấy ý tưởng của Tìm kiếm Cây Monte Carlo (MCTS) trong suy diễn và đưa nó vào vòng lặp huấn luyện. Sự chuyển đổi đó mở khóa khả năng khám phá tốt hơn và việc học hiệu quả hơn. Dưới đây là ghi chú của tôi từ bài báo: Vòng lặp bao gồm bốn ý tưởng chính: Tìm kiếm trong quá trình huấn luyện: Thay vì chỉ thực hiện tìm kiếm vào thời điểm kiểm tra, MCTS được chạy trong quá trình huấn luyện RL. Một bộ chọn UCT cục bộ xếp hạng các anh em, trong khi một bộ điểm biên toàn cầu chọn các lá hứa hẹn trên toàn bộ cây dựa trên giá trị cha, độ hỗn loạn và độ sâu. Học từ cả chiến thắng và những sai lầm tự tin: Nếu không tìm thấy giải pháp đúng, mô hình vẫn học bằng cách giám sát con đường sai lầm tự tin (những sai lầm có độ hỗn loạn thấp nhất). Các con đường đúng vẫn giữ giá trị không âm trong quá trình cập nhật, điều này giúp với việc phân bổ tín dụng theo từng bước. Ổn định RL với Tree-GRPO: Họ tinh chỉnh các mục tiêu kiểu PPO với các giá trị q cấp nút, chuẩn hóa chỉ trung bình và một chiến lược cắt mềm. Điều này tránh được sự bùng nổ phần thưởng trong khi vẫn giữ cho các gradient có thông tin. Giữ cho hiệu quả: Để cắt giảm tính toán lãng phí, DeepSearch lọc ra một tập hợp vấn đề cứng, lưu trữ các giải pháp một khi chúng đã được xác minh, và bỏ qua tìm kiếm đầy đủ khi một câu trả lời đã được biết. Tất cả những cải tiến này dẫn đến kết quả mạnh mẽ. DeepSearch-1.5B đạt 62.95% trên các tiêu chuẩn AIME/AMC, vượt qua một cơ sở Nemotron hàng đầu trong khi chỉ sử dụng khoảng ~330 giờ GPU. So với đó, việc huấn luyện RL bình thường đạt đến điểm bão hòa thấp hơn ngay cả với hơn 1,800 giờ GPU. Bài báo: Tôi nghĩ bài báo này cung cấp một công thức thực tiễn để vượt qua các điểm bão hòa trong các mô hình lý luận nhỏ: • Di chuyển tìm kiếm vào huấn luyện, không chỉ suy diễn • Giám sát cả con đường đúng và sai • Sử dụng ưu tiên toàn cầu để khám phá thông minh hơn • Lưu trữ và lọc để giữ cho hiệu quả cao

Hàng đầu

Thứ hạng

Yêu thích