RL ist so empfindlich gegenüber Zahlen, beim letzten Mal hat das Torch-Compile einige Abstürze verursacht, jetzt vllm v1.
Mika Senghaas
Mika Senghaas12. Aug., 11:23
Der Umstieg von vllm v0 auf v1 hat unser asynchrones RL-Training zum Absturz gebracht! Lesen Sie, wie wir es behoben haben. Wir haben kürzlich im Rahmen einer größeren Umstrukturierung von prime-rl von v0 auf v1 migriert, um es benutzerfreundlicher, leistungsfähiger und natürlich asynchron zu gestalten. Wir haben die korrekten Trainingsdynamiken bei vielen kleineren Läufen bestätigt, sind jedoch auf eine Wand gestoßen, als wir versuchten, einen größeren Lauf zu reproduzieren, der vor der Umstrukturierung ohne Probleme lief. Konkret stürzte das Training von DeepSeek-R1-Distill-Qwen-1.5B bei einzeiligen mathematischen Problemen aus unserem INTELLECT-2-Mathematikdatensatz mit 8k Kontext und einer zweistufigen Off-Policy-Verzögerung etwa 400 Schritte in das Training fatal ab.
6,68K