Ponieważ wszyscy mówią teraz o środowiskach RL i GRPO, ale nikt nie wie, jak to działa, pomyśleliśmy, że fajnie byłoby stworzyć film wyjaśniający + kod, który można uruchomić: To jest przykład użycia GRPO do trenowania Qwen 2.5, aby grać w 2048 (kod w wątku) 🧵:
93,73K