L'alignement en ligne est-il le seul chemin à suivre malgré sa lenteur et son coût computationnel élevé ? Inspirés par la théorie des perspectives, nous fournissons une explication centrée sur l'humain pour expliquer pourquoi l'alignement en ligne (par exemple, GRPO) surpasse l'alignement hors ligne (par exemple, DPO, KTO) et montrons empiriquement comment combler l'écart entre en ligne et hors ligne avec Humanline, un design simple mais constamment efficace en deux parties. 💡Principale découverte : Appliquer Humanline en plus des objectifs hors ligne peut donner des performances équivalentes à celles de leurs homologues en ligne tant en suivi d'instructions qu'en raisonnement mathématique. Des gains constants à travers différents objectifs, familles de modèles et tailles de modèles ! Plus dans les fils 🧵