"Reinforcement Pre-Training" is super nuttig wanneer je chain-of-thought wilt gebruiken om de prestaties op taken zoals het voorspellen van het volgende woord van deze _____ te verbeteren.
er zijn ongeveer 5 papers over dit onderwerp. Ze tonen allemaal aan dat het beter is dan niets doen bij single-token voorspellingstaken. Natuurlijk is het dat! Het zou krankzinnig zijn als dat niet zo was! Toont een van hen iets interessants of verrassends?
7,14K