Já que todo mundo está falando sobre RL Environments e GRPO agora, mas ninguém sabe como funciona, achamos que seria legal fazer um vídeo explicativo + código que você pode executar: Este é um exemplo de uso do GRPO para treinar o Qwen 2.5 para jogar 2048 (código no thread): 🧵
112,36K