Meta только что представила законы масштабирования RL: простая сигмоидная кривая может предсказать результаты RL в крупном масштабе. Эта работа обошлась им в ~$4.2 миллиона (400K GB200 часов) для выполнения. Ключевые выводы: - Принятие горького урока: методы, которые кажутся превосходными при небольших вычислительных затратах, могут оказаться хуже при экстраполяции на крупные вычислительные режимы. - Общепринятая мудрость, такая как агрегация потерь, нормализация, алгоритмы вне политики, не поднимает потолок производительности RL. - Использование FP32 точности на последнем слое (голова LM) дает огромный прирост в асимптотической награде. - Долгое мышление не является расточительным: более длинные контексты обучаются медленнее, но достигают более высоких потолков. Очень важная работа, на мой взгляд. Хорошая работа, Meta!