Protože teď všichni mluví o RL Environments a GRPO, ale nikdo neví, jak to funguje, napadlo nás, že by bylo skvělé vytvořit vysvětlující video + kód, který můžete spustit: Toto je příklad použití GRPO k trénování Qwen 2.5 pro přehrávání 2048 (kód ve vlákně): 🧵
56,52K