Cược đặt vào việc xây dựng một hệ thống học tập liên tục. Điều này có nghĩa là gì? Cập nhật của Cursor là một ví dụ hoạt động. Dữ liệu mới được đưa vào, hệ thống biết cách lọc ra những mẫu có giá trị nhất. Sau đó, nó tận dụng RL/các thuật toán khác để triển khai một điểm kiểm tra được đào tạo bằng dữ liệu đó.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 thg 8, 2025
Chúng tôi giới thiệu một công thức tốt hơn để thu thập dữ liệu sau đào tạo khi sử dụng GRPO. Việc thu thập mẫu từ các chuyên gia là tốn kém, ngân sách chú thích thì hạn chế. Những ví dụ nào thực sự đáng để chi tiền? Chúng tôi nhận thấy rằng việc tập trung vào các mẫu khó mang lại cải thiện từ 30-40%. 1/7
Mỗi thành phần cần được nghiên cứu cẩn thận trước tiên để xây dựng một meta-algorithm có thể vận hành một hệ thống như vậy. Trong một lần huấn luyện, nó có thể đánh giá xem có nên tiếp tục hay dừng lại dựa trên những dấu hiệu ban đầu. Để làm điều này, những hiểu biết từ hàng trăm lần chạy được tổng hợp vào một hệ thống như vậy.
Dòng công việc này bắt đầu quá trình giải quyết các vấn đề lý luận với phần thưởng có thể xác minh. Bởi vì đây là môi trường "ổn định" nhất để xây dựng một quy trình đơn giản cho việc học. Những biên giới tiếp theo sẽ là LLM-như-thẩm phán và các thiết lập phần thưởng trì hoãn, dài hạn.
1,04K