Eftersom alla pratar om RL Environments och GRPO nu men ingen vet hur det fungerar så tänkte vi att det skulle vara coolt att göra en förklarande video + kod som du kan köra: Detta är ett exempel på hur du använder GRPO för att träna Qwen 2.5 att spela 2048 (kod i tråden): 🧵
112,37K