Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta щойно відмовилася від законів масштабування РЛ: проста сигмоїдна крива може передбачити великомасштабні результати РЛ.
Цей папір коштував їм ~4,2 мільйона доларів (400 тис. GB200 годин).
Ключові моменти:
- Прийняття гіркого уроку: методи, які здаються кращими при малих обчислювальних бюджетах, можуть бути гіршими, якщо їх екстраполювати на режими великих обчислень.
- Загальноприйнята мудрість, така як агрегація втрат, нормалізація, алгоритм поза політикою, не підвищуйте стелю продуктивності РЛ.
- Використання точності FP32 у фінальному шарі (головка LM) дає величезне збільшення асимптотичної винагороди.
- Довге мислення не є марнотратним: довші контексти рухаються повільніше, але досягають вищих стель.
Дуже важлива папір imo. Гарна робота, Meta!

Найкращі
Рейтинг
Вибране