Meta щойно відмовилася від законів масштабування РЛ: проста сигмоїдна крива може передбачити великомасштабні результати РЛ. Цей папір коштував їм ~4,2 мільйона доларів (400 тис. GB200 годин). Ключові моменти: - Прийняття гіркого уроку: методи, які здаються кращими при малих обчислювальних бюджетах, можуть бути гіршими, якщо їх екстраполювати на режими великих обчислень. - Загальноприйнята мудрість, така як агрегація втрат, нормалізація, алгоритм поза політикою, не підвищуйте стелю продуктивності РЛ. - Використання точності FP32 у фінальному шарі (головка LM) дає величезне збільшення асимптотичної винагороди. - Довге мислення не є марнотратним: довші контексти рухаються повільніше, але досягають вищих стель. Дуже важлива папір imo. Гарна робота, Meta!