Meta heeft zojuist RL-schaalwetten gepubliceerd: Een eenvoudige sigmoidcurve kan grote schaal RL-uitkomsten voorspellen. Dit paper kostte hen ongeveer ~$4,2 miljoen (400K GB200 uren) om uit te voeren. Belangrijke punten: - Omarmen van de Bittere Les: Methoden die superieur lijken bij kleine rekenbudgetten kunnen slechter zijn wanneer ze worden geëxtrapoleerd naar grote rekenschema's. - Algemene wijsheid zoals verliesaggregatie, normalisatie, off-policy algoritme, verhoogt het RL-prestatieniveau niet. - Het gebruik van FP32-precisie in de laatste laag (LM-hoofd) geeft een enorme boost in de asymptotische beloning. - Langer nadenken is niet verspilling: langere contexten trainen langzamer maar bereiken hogere plafonds. Zeer belangrijk paper imo. Goed gedaan Meta!