Meta vừa công bố các quy luật mở rộng RL: Một đường cong sigmoid đơn giản có thể dự đoán kết quả RL quy mô lớn. Bài báo này đã tiêu tốn của họ khoảng ~$4.2 triệu (400K giờ GB200) để thực hiện. Những điểm chính: - Chấp nhận Bài học Đắng: Các phương pháp có vẻ vượt trội ở ngân sách tính toán nhỏ có thể tệ hơn khi được ngoại suy sang các chế độ tính toán lớn. - Những hiểu biết thông thường như tổng hợp tổn thất, chuẩn hóa, thuật toán ngoài chính sách, không nâng cao trần hiệu suất RL. - Sử dụng độ chính xác FP32 ở lớp cuối (đầu LM) mang lại một cú hích lớn trong phần thưởng tiệm cận. - Suy nghĩ lâu hơn không phải là lãng phí: các ngữ cảnh dài hơn huấn luyện chậm hơn nhưng đạt được trần cao hơn. Bài báo rất quan trọng theo ý kiến của tôi. Làm tốt lắm Meta!