"Reinforcement Pre-Training" ist super nützlich, wenn Sie Chain-of-Thought verwenden möchten, um die Leistung bei Aufgaben wie der Vorhersage des nächsten Wortes von diesem _____ zu verbessern.
Es gab etwa 5 Arbeiten dazu. Sie zeigen alle, dass es besser ist, als nichts bei der Vorhersage von Einzel-Token-Aufgaben zu tun. Natürlich ist es das! Es wäre verrückt, wenn nicht! Zeigt irgendeine von ihnen etwas Interessantes oder Überraschendes?
7,15K