Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL on niin herkkä numeerisille, että viime kerralla polttimen kääntäminen sai jotkut ajot kaatumaan nyt vllm v1

12.8. klo 11.23
Siirtyminen VLM V0:sta V1:een sai asynkronisen RL-harjoittelumme kaatumaan! Lue, miten korjasimme sen
Siirryimme äskettäin v0:sta v1:een osana suurempaa Prime-RL:n refaktorointia, jotta se olisi helpompi käyttää, suorituskykyisempi ja luonnollisesti asynkroninen. Vahvistimme oikean harjoitusdynamiikan monilla pienemmän mittakaavan ajoilla, mutta törmäsimme seinään, kun yritimme toistaa suuremman mittakaavan juoksun, joka toimi ongelmitta ennen refaktorointia. Tarkemmin sanottuna DeepSeek-R1-Distill-Qwen-1.5B:n kouluttaminen yhden kierroksen matemaattisiin ongelmiin INTELLECT-2-matemaattisesta tietojoukostamme 8k-kontekstissa kaksivaiheisella politiikan ulkopuolisella viiveellä kaatuisi kohtalokkaasti noin 400 askelta koulutukseen

6,78K
Johtavat
Rankkaus
Suosikit