“强化预训练”在你想要使用思维链来提高在诸如预测下一个单词这样的任务的表现时非常有用。
关于这个问题已经有大约5篇论文了。它们都表明,在单一代币预测任务中,这种方法比什么都不做要好。当然是这样!如果不是,那就太疯狂了! 它们中有哪篇显示出有趣或令人惊讶的内容吗?
7.14K