Aangezien iedereen het nu heeft over RL-omgevingen en GRPO, maar niemand weet hoe het werkt, dachten we dat het leuk zou zijn om een uitlegvideo + code te maken die je kunt uitvoeren: Dit is een voorbeeld van het gebruik van GRPO om Qwen 2.5 te trainen om 2048 te spelen (code in de thread) 🧵:
93,72K