Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Is online afstemming de enige weg om te gaan, ondanks dat het traag en computationeel duur is?
Geïnspireerd door de prospecttheorie bieden we een mensgerichte uitleg voor waarom online afstemming (bijv. GRPO) beter presteert dan offline afstemming (bijv. DPO, KTO) en tonen we empirisch aan hoe we de kloof tussen online en offline kunnen dichten met Humanline, een eenvoudig maar consistent effectief ontwerp in twee delen.
💡Hoofdvinding: Het toepassen van humanline bovenop offline doelstellingen kan gelijkwaardig presteren aan hun online tegenhangers op zowel instructie opvolging als wiskundig redeneren. Consistente winst over verschillende doelstellingen, modelfamilies en modelgroottes!
Meer in threads 🧵

Boven
Positie
Favorieten