Vì mọi người đang nói về Môi Trường RL và GRPO bây giờ nhưng không ai biết nó hoạt động như thế nào, chúng tôi nghĩ rằng sẽ thật tuyệt nếu làm một video giải thích + mã mà bạn có thể chạy: Đây là một ví dụ về việc sử dụng GRPO để huấn luyện Qwen 2.5 chơi 2048 (mã trong chủ đề) 🧵:
93,72K