Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Är onlineanpassning den enda vägen att gå trots att det är långsamt och beräkningsmässigt dyrt?
Inspirerade av prospektteori ger vi en människocentrerad förklaring till varför online-anpassning (t.ex. GRPO) överträffar offline-anpassning (t.ex. DPO, KTO) och visar empiriskt hur man kan överbrygga online-offline-klyftan med Humanline, en enkel men konsekvent effektiv tvådelad design.
💡Huvudresultat: Att tillämpa humanline ovanpå offline-mål kan prestera i nivå med sina online-motsvarigheter på både instruktionsföljning och matematiskt resonemang. Konsekventa vinster över olika målsättningar, modellfamiljer och modellstorlekar!
Mer i trådar 🧵

Topp
Rankning
Favoriter