Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Er online justering den eneste veien å gå til tross for at den er treg og beregningsmessig dyr?
Inspirert av prospektteori gir vi en menneskesentrert forklaring på hvorfor online alignment (f.eks. GRPO) overgår offline alignment (f.eks. DPO, KTO) og viser empirisk hvordan man kan lukke gapet mellom online og offline med Humanline, et enkelt, men konsekvent effektivt todelt design.
💡Hovedfunn: Å bruke humanline på toppen av offline-mål kan fungere på nivå med sine online kolleger på både instruksjonsfølging og matematisk resonnement. Konsekvente gevinster på tvers av ulike mål, modellfamilier og modellstørrelser!
Mer i tråder 🧵

Topp
Rangering
Favoritter