Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aangezien iedereen het nu heeft over RL-omgevingen en GRPO, maar niemand weet hoe het werkt, dachten we dat het leuk zou zijn om een uitlegvideo + code te maken die je kunt uitvoeren:
Dit is een voorbeeld van het gebruik van GRPO om Qwen 2.5 te trainen om 2048 te spelen (code in de thread) 🧵:
93,72K
Boven
Positie
Favorieten