Uma vez que todos estão a falar sobre Ambientes RL e GRPO agora, mas ninguém sabe como funciona, achámos que seria interessante fazer um vídeo explicativo + código que você pode executar: Este é um exemplo de como usar o GRPO para treinar o Qwen 2.5 a jogar 2048 (código no tópico) 🧵:
93,72K