L'allineamento online è l'unico percorso da seguire nonostante sia lento e costoso in termini computazionali? Ispirati dalla teoria delle prospettive, forniamo una spiegazione incentrata sull'uomo per cui l'allineamento online (ad es. GRPO) supera l'allineamento offline (ad es. DPO, KTO) e mostriamo empiricamente come colmare il divario online-offline con Humanline, un design semplice ma costantemente efficace in due parti. 💡Risultato principale: Applicare Humanline sopra gli obiettivi offline può eseguire alla pari con i loro omologhi online sia nel seguire le istruzioni che nel ragionamento matematico. Guadagni costanti attraverso diversi obiettivi, famiglie di modelli e dimensioni dei modelli! Di più nei thread 🧵