Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Xây dựng với các tác nhân AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Tôi chia sẻ thông tin chi tiết về cách xây dựng với LLM & AI Agents ⬇️
Thực tế là tất cả chúng ta nên cố gắng xây dựng đồng nghiệp lý tưởng của riêng mình.
Cowork của Anthropic báo hiệu một làn sóng mới của các công cụ điều phối tác nhân đang đến.
Không chỉ đơn giản là làm cho việc sử dụng Claude Code trở nên dễ dàng.
Theo ý kiến của tôi, điều quan trọng hơn là xây dựng các giao diện trực quan để tương tác, quản lý và điều phối các tác nhân để làm việc hiệu quả hơn với AI.
Có không gian cho sự đổi mới trong cách giao tiếp giữa con người và tác nhân (và ngược lại) diễn ra. Và tôi có ý nói ở khắp mọi nơi và mọi lĩnh vực mà bạn có thể tưởng tượng.
Với sự gia tăng của các Kỹ năng và plugin, bất kỳ ai cũng có thể xây dựng những trải nghiệm mạnh mẽ với những tác nhân và công cụ này. Bạn không cần phải có kiến thức kỹ thuật để làm gián đoạn và xây dựng những kỹ năng sáng tạo và cực kỳ hữu ích (cho công việc, một dự án cá nhân, hoặc thậm chí là một startup). Bạn cần có gu tốt trong lĩnh vực mà bạn đang hoạt động, chú ý đến công nghệ AI đang nổi lên, thử nghiệm không ngừng, xây dựng bối cảnh, và xây dựng với tư duy tích lũy.
Thời gian thú vị đang đến. Đã đến lúc xây dựng!

84
Liệu Agentic RAG có đáng giá không?
Các hệ thống RAG đã phát triển từ các quy trình lấy lại và tạo ra đơn giản thành các quy trình phức tạp. Vẫn chưa rõ khi nào nên sử dụng Enhanced RAG (các quy trình cố định với các mô-đun chuyên dụng) so với Agentic RAG (LLM điều phối toàn bộ quá trình một cách linh hoạt).
Nghiên cứu này cung cấp so sánh thực nghiệm đầu tiên.
Enhanced RAG thêm các thành phần được định nghĩa trước để giải quyết các điểm yếu cụ thể: bộ định tuyến để xác định xem có cần lấy lại thông tin hay không, bộ viết lại truy vấn để cải thiện sự phù hợp, và bộ xếp hạng lại để tinh chỉnh việc chọn tài liệu. Quy trình làm việc là cố định và được thiết kế thủ công.
Agentic RAG có cách tiếp cận khác. LLM quyết định các hành động nào cần thực hiện, khi nào thực hiện chúng, và liệu có cần lặp lại hay không. Không có thành phần bổ sung nào ngoài cơ sở tri thức cơ bản, bộ lấy lại và bộ tạo. Mô hình kiểm soát mọi thứ.
Các nhà nghiên cứu đã đánh giá cả hai mô hình trên bốn khía cạnh trong các nhiệm vụ QA và lấy lại thông tin.
Xử lý ý định người dùng: Agentic hơi vượt trội hơn Enhanced trong hầu hết các nhiệm vụ, nhưng Enhanced thắng quyết định trong FEVER (+28.8 điểm F1), nơi mà tác nhân thường lấy lại thông tin không cần thiết.
Viết lại truy vấn: Agentic RAG đạt 55.6 NDCG@10 trung bình so với 52.8 cho Enhanced, cho thấy tác nhân có thể viết lại truy vấn một cách thích ứng khi có lợi.
Tinh chỉnh tài liệu: Enhanced RAG với xếp hạng lại (49.5 NDCG@10) vượt trội hơn Agentic (43.9). Các mô-đun xếp hạng lại chuyên dụng vượt qua các nỗ lực lấy lại lặp đi lặp lại.
Agentic RAG nhạy cảm hơn nhiều với khả năng của mô hình. Với các mô hình yếu hơn, Enhanced RAG duy trì sự ổn định trong khi hiệu suất của Agentic giảm đáng kể.
Phân tích chi phí cho thấy Agentic RAG yêu cầu thời gian tính toán và token nhiều gấp 2-10 lần do lý luận nhiều bước.
Sự lựa chọn giữa Enhanced và Agentic RAG phụ thuộc vào các ràng buộc của bạn. Enhanced RAG cung cấp tính dự đoán, chi phí thấp hơn và sự ổn định với các mô hình yếu hơn. Agentic RAG cung cấp sự linh hoạt nhưng yêu cầu các mô hình mạnh hơn và nhiều tính toán hơn.
Bài báo:
Học cách xây dựng các hệ thống Agentic RAG hiệu quả trong học viện của chúng tôi:

132
Giải pháp bộ nhớ đơn giản cho các nhiệm vụ dài hạn.

DAIR.AI22:22 15 thg 1
Quản lý bộ nhớ tự động trong các tác nhân LLM
Các tác nhân LLM gặp khó khăn với các nhiệm vụ dài hạn do sự phình to của ngữ cảnh.
Khi lịch sử tương tác tăng lên, chi phí tính toán bùng nổ, độ trễ tăng lên, và khả năng suy luận suy giảm do bị phân tâm bởi những lỗi không liên quan trong quá khứ.
Cách tiếp cận tiêu chuẩn là chỉ thêm: mọi suy nghĩ, cuộc gọi công cụ và phản hồi đều tích lũy vĩnh viễn. Điều này hoạt động cho các nhiệm vụ ngắn nhưng đảm bảo thất bại cho việc khám phá phức tạp.
Nghiên cứu này giới thiệu Focus, một kiến trúc tập trung vào tác nhân được lấy cảm hứng từ nấm nhầy (Physarum polycephalum). Cái nhìn sinh học: các sinh vật không giữ lại hồ sơ hoàn hảo về mọi chuyển động qua một mê cung. Chúng giữ lại bản đồ đã học.
Focus cung cấp cho các tác nhân hai nguyên tắc mới: start_focus và complete_focus. Tác nhân tự động quyết định khi nào nên hợp nhất các kiến thức thành một khối Kiến thức vĩnh viễn và chủ động cắt tỉa lịch sử tương tác thô. Không có bộ hẹn giờ hoặc heuristics bên ngoài buộc phải nén.
Nó tuyên bố những gì bạn đang điều tra, khám phá bằng cách sử dụng các công cụ tiêu chuẩn, và sau đó hợp nhất bằng cách tóm tắt những gì đã thử, những gì đã học, và kết quả. Hệ thống này thêm điều này vào một khối Kiến thức vĩnh viễn và xóa mọi thứ giữa điểm kiểm tra và bước hiện tại.
Điều này chuyển đổi ngữ cảnh tăng liên tục thành một mẫu răng cưa: tăng trưởng trong quá trình khám phá, sụp đổ trong quá trình hợp nhất.
Đánh giá trên SWE-bench Lite với Claude Haiku 4.5 cho thấy Focus đạt được mức giảm 22.7% token (14.9M xuống 11.5M token) trong khi duy trì độ chính xác giống hệt (60% cho cả baseline và Focus). Các trường hợp cá nhân cho thấy tiết kiệm lên tới 57%.
Việc nhắc nhở mạnh mẽ là quan trọng. Việc nhắc nhở thụ động chỉ mang lại 6% tiết kiệm. Hướng dẫn rõ ràng để nén sau mỗi 10-15 cuộc gọi công cụ, với các nhắc nhở của hệ thống, đã tăng số lần nén từ 2.0 lên 6.0 cho mỗi nhiệm vụ.
Các mô hình có khả năng có thể tự điều chỉnh ngữ cảnh của chúng khi được cung cấp các công cụ và nhắc nhở phù hợp, mở ra con đường cho các hệ thống tác nhân nhận thức chi phí mà không hy sinh hiệu suất nhiệm vụ.
Bài báo:
Học cách xây dựng các tác nhân AI hiệu quả trong học viện của chúng tôi:

34
Hàng đầu
Thứ hạng
Yêu thích
