Sự tiến hóa của học tập few-shot cho các LLM lý luận hiện đại, sử dụng @NethermindEth AuditAgent làm ví dụ. Dưới đây bạn có thể thấy một biểu đồ thú vị, hoặc đúng hơn là một so sánh về số lượng lỗ hổng được xác định chính xác bởi sản phẩm của chúng tôi so với các LLM sẵn có như @OpenAI GPT-5, @AnthropicAI Claude Opus 4.1, @Google Gemini 2.5 Pro, hoặc @xai Grok-4. Tất nhiên, phần rõ ràng của sự so sánh này, mà tôi đã trình bày nhiều lần trước đây và không có gì mới mẻ trong đó, là một tác nhân chuyên biệt sẽ gần như luôn vượt trội hơn một giải pháp đa năng. Tình huống này thực sự được giải thích khá dễ dàng bởi thực tế là tất cả các giải pháp đa năng đều là một phần của giải pháp chuyên biệt của chúng tôi, mặc dù đóng góp lớn hơn nhiều cho kết quả đến từ việc quản lý ngữ cảnh đúng cách hoặc điều mà @karpathy gần đây đã gọi là "Kỹ thuật Ngữ cảnh." Ngoài điều này, việc sử dụng các công cụ đúng và lựa chọn của chúng - một mô hình đa năng sẽ luôn gặp vấn đề vì có hàng tỷ công cụ và việc học cách sử dụng tất cả chúng là một kỹ năng lớn riêng biệt, trong khi chúng tôi dạy mô hình chuyên biệt của mình điều này một cách rõ ràng. Sau đó là việc sử dụng các cơ sở dữ liệu kiến thức đúng và các thuật toán tìm kiếm phù hợp cho chúng, và nhiều thứ khác. Vì vậy, bằng cách này hay cách khác, chúng tôi làm mọi thứ có thể, sử dụng tất cả các công cụ có thể để đánh bại những giải pháp đa năng này. Nhưng điểm thú vị mà tôi muốn thu hút sự chú ý là nếu bạn nhìn vào bức tranh tôi đã đăng cách đây khoảng một năm, các giải pháp sẵn có hàng đầu là các mô hình của OpenAI hoặc Anthropic với nhãn "Học tập Few-Shot", trong khi bây giờ tất cả các mô hình hàng đầu đều là Vanilla. Và sự thay đổi này đã diễn ra dần dần với sự xuất hiện của lý luận như một khái niệm trong các mô hình và với sự cải thiện chất lượng của nó. Kết luận có thể rút ra là các ví dụ về giải pháp đúng sẵn có mà mô hình nhận được từ chúng tôi như một phần học trong ngữ cảnh, khi chúng tôi thực sự cho chúng thấy trong lời nhắc, ngừng giúp giải quyết nhiệm vụ, hoặc chính xác hơn, không có chúng, mô hình có khả năng lý luận giải quyết vấn đề thậm chí còn tốt hơn. Tức là, chúng tôi phần nào giới hạn khả năng của nó bằng cách cho nó thấy một vài ví dụ mà chúng tôi đã chọn. Ngoài ra, một khía cạnh thú vị là các mô hình có quyền truy cập internet và tự động lựa chọn công cụ này cũng bắt đầu vượt trội hơn mọi thứ, có nghĩa là mô hình có thể tự mình truy cập internet và hình thành ngữ cảnh đúng cho chính nó. Vâng, tất nhiên có rủi ro rằng mô hình sẽ tìm thấy câu trả lời đúng, nhưng tự nhiên chúng tôi làm việc cụ thể với điều này, chúng tôi thực hiện việc chặn các trang web và nhiều thứ khác, vì vậy chúng tôi cố gắng không để xảy ra sự rò rỉ như vậy trong dữ liệu (việc kiểm tra đúng là chìa khóa tổng thể). Nhưng xu hướng này thật thú vị - các mô hình đang trở nên thông minh hơn và đảm nhận ngày càng nhiều thành phần của giải pháp cho chính chúng, không yêu cầu các nhà phát triển phải thực hiện các cài đặt cụ thể trong ngữ cảnh. Kinh nghiệm của bạn với điều này là gì?
547