Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este alinierea online singura cale de urmat, în ciuda faptului că este lentă și costisitoare din punct de vedere computațional?
Inspirați de teoria prospectului, oferim o explicație centrată pe om pentru motivul pentru care alinierea online (de exemplu, GRPO) depășește alinierea offline (de exemplu, DPO, KTO) și arătăm empiric cum să eliminăm decalajul online-offline cu Humanline, un design simplu, dar eficient în două părți.
💡Constatare principală: Aplicarea liniei umane pe lângă obiectivele offline poate funcționa la egalitate cu omologii lor online atât în ceea ce privește urmărirea instrucțiunilor, cât și raționamentul matematic. Câștiguri consistente pentru diferite obiective, familii de modele și dimensiuni de modele!
Mai multe în subiecte 🧵

Limită superioară
Clasament
Favorite