Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'alignement en ligne est-il le seul chemin à suivre malgré sa lenteur et son coût computationnel élevé ?
Inspirés par la théorie des perspectives, nous fournissons une explication centrée sur l'humain pour expliquer pourquoi l'alignement en ligne (par exemple, GRPO) surpasse l'alignement hors ligne (par exemple, DPO, KTO) et montrons empiriquement comment combler l'écart entre en ligne et hors ligne avec Humanline, un design simple mais constamment efficace en deux parties.
💡Principale découverte : Appliquer Humanline en plus des objectifs hors ligne peut donner des performances équivalentes à celles de leurs homologues en ligne tant en suivi d'instructions qu'en raisonnement mathématique. Des gains constants à travers différents objectifs, familles de modèles et tailles de modèles !
Plus dans les fils 🧵

Meilleurs
Classement
Favoris