Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta vừa công bố các quy luật mở rộng RL: Một đường cong sigmoid đơn giản có thể dự đoán kết quả RL quy mô lớn.
Bài báo này đã tiêu tốn của họ khoảng ~$4.2 triệu (400K giờ GB200) để thực hiện.
Những điểm chính:
- Chấp nhận Bài học Đắng: Các phương pháp có vẻ vượt trội ở ngân sách tính toán nhỏ có thể tệ hơn khi được ngoại suy sang các chế độ tính toán lớn.
- Những hiểu biết thông thường như tổng hợp tổn thất, chuẩn hóa, thuật toán ngoài chính sách, không nâng cao trần hiệu suất RL.
- Sử dụng độ chính xác FP32 ở lớp cuối (đầu LM) mang lại một cú hích lớn trong phần thưởng tiệm cận.
- Suy nghĩ lâu hơn không phải là lãng phí: các ngữ cảnh dài hơn huấn luyện chậm hơn nhưng đạt được trần cao hơn.
Bài báo rất quan trọng theo ý kiến của tôi. Làm tốt lắm Meta!

Hàng đầu
Thứ hạng
Yêu thích