Poiché tutti parlano ora di Ambienti RL e GRPO, ma nessuno sa come funziona, abbiamo pensato che sarebbe stato interessante realizzare un video esplicativo + codice che puoi eseguire: Questo è un esempio di utilizzo di GRPO per addestrare Qwen 2.5 a giocare a 2048 (codice nel thread) 🧵:
76,18K