Dado que todos están hablando sobre los Entornos RL y GRPO ahora, pero nadie sabe cómo funciona, pensamos que sería genial hacer un video explicativo + código que puedas ejecutar: Este es un ejemplo de cómo usar GRPO para entrenar a Qwen 2.5 para jugar 2048 (código en el hilo) 🧵:
93,72K