RL on niin herkkä numeerisille, että viime kerralla polttimen kääntäminen sai jotkut ajot kaatumaan nyt vllm v1
Mika Senghaas
Mika Senghaas12.8. klo 11.23
Siirtyminen VLM V0:sta V1:een sai asynkronisen RL-harjoittelumme kaatumaan! Lue, miten korjasimme sen Siirryimme äskettäin v0:sta v1:een osana suurempaa Prime-RL:n refaktorointia, jotta se olisi helpompi käyttää, suorituskykyisempi ja luonnollisesti asynkroninen. Vahvistimme oikean harjoitusdynamiikan monilla pienemmän mittakaavan ajoilla, mutta törmäsimme seinään, kun yritimme toistaa suuremman mittakaavan juoksun, joka toimi ongelmitta ennen refaktorointia. Tarkemmin sanottuna DeepSeek-R1-Distill-Qwen-1.5B:n kouluttaminen yhden kierroksen matemaattisiin ongelmiin INTELLECT-2-matemaattisesta tietojoukostamme 8k-kontekstissa kaksivaiheisella politiikan ulkopuolisella viiveellä kaatuisi kohtalokkaasti noin 400 askelta koulutukseen
6,78K