Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta только что представила законы масштабирования RL: простая сигмоидная кривая может предсказать результаты RL в крупном масштабе.
Эта работа обошлась им в ~$4.2 миллиона (400K GB200 часов) для выполнения.
Ключевые выводы:
- Принятие горького урока: методы, которые кажутся превосходными при небольших вычислительных затратах, могут оказаться хуже при экстраполяции на крупные вычислительные режимы.
- Общепринятая мудрость, такая как агрегация потерь, нормализация, алгоритмы вне политики, не поднимает потолок производительности RL.
- Использование FP32 точности на последнем слое (голова LM) дает огромный прирост в асимптотической награде.
- Долгое мышление не является расточительным: более длинные контексты обучаются медленнее, но достигают более высоких потолков.
Очень важная работа, на мой взгляд. Хорошая работа, Meta!

Топ
Рейтинг
Избранное