Meta acabou de abandonar as leis de escala de RL: uma curva sigmóide simples pode prever resultados de RL em larga escala. Este artigo custou ~ $ 4,2 milhões (400 mil GB200 horas) para ser executado. Principais conclusões: - Abraçando a lição amarga: Métodos que parecem superiores em orçamentos de computação pequena podem ser piores quando extrapolados para regimes de computação grande. - Senso comum como agregação de perdas, normalização, algoritmo fora da política, não aumenta o teto de desempenho de RL. - Usar a precisão FP32 na camada final (cabeça LM) dá um grande impulso na recompensa assintótica. - Pensar mais não é um desperdício: contextos mais longos treinam mais devagar, mas atingem tetos mais altos. Papel muito importante imo. Bom trabalho Meta!