Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'allineamento online è l'unico percorso da seguire nonostante sia lento e costoso in termini computazionali?
Ispirati dalla teoria delle prospettive, forniamo una spiegazione incentrata sull'uomo per cui l'allineamento online (ad es. GRPO) supera l'allineamento offline (ad es. DPO, KTO) e mostriamo empiricamente come colmare il divario online-offline con Humanline, un design semplice ma costantemente efficace in due parti.
💡Risultato principale: Applicare Humanline sopra gli obiettivi offline può eseguire alla pari con i loro omologhi online sia nel seguire le istruzioni che nel ragionamento matematico. Guadagni costanti attraverso diversi obiettivi, famiglie di modelli e dimensioni dei modelli!
Di più nei thread 🧵

Principali
Ranking
Preferiti