DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Aangezien iedereen het nu heeft over RL-omgevingen en GRPO, maar niemand weet hoe het werkt, dachten we dat het leuk zou zijn om een uitlegvideo + code te maken die je kunt uitvoeren: Dit is een voorbeeld van het gebruik van GRPO om Qwen 2.5 te trainen om 2048 te spelen (code in de thread) 🧵:

93,72K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste