prime-rl niedawno przeszedł przegląd dokumentacji, w tym e2e przewodniki po przykładach treningowych! na przykład, trenowanie qwen3-1.7b, aby przejść z 0% -> ~60% wskaźnika wygranych w środowisku wordle @willccbb, używając kilku kroków sft warmup i wieloetapowego rl. można uruchomić na pojedynczym gpu w ciągu kilku godzin