这是我在@AIatMeta的最后一周。决定不继续参与新的超级智能TBD实验室是一个艰难的决定,尤其考虑到人才和计算密度。但在谷歌大脑、DeepMind和Meta工作了7.5年后,我感到有必要承担一种不同的风险。 马克和@alexandr_wang提出的在超级智能团队中工作的提议非常吸引人。但我最终选择遵循马克自己的建议:“在一个变化如此迅速的世界中,最大的风险就是不冒任何风险”。 在我短暂的Meta工作期间,我们确实在“思考”模型的后训练方面推动了前沿。具体来说: - 将一个8B密集模型的性能提升到接近Deepseek-R1的水平,使用RL扩展。 - 在训练中期使用合成数据来热启动RL。 - 开发更好的在线蒸馏方法。 非常享受与@_arohan_、@brandfonbrener、Leo Li、@ErykHelenowski、@DatHuynh13、Xiaocheng、Jia、Boduo和Yanjun的合作。
281.09K