Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Arthur Douillard
Distribuert læring @ deepmind | DiLoCo, DiPaCo. Kontinuerlig læring PhD @ Sorbonne
Flott kombinasjon for å lære mer om distribuert læring med @MatharyCharles og @samsja19

Zach Mueller19. aug., 02:24
Jeg sa at jeg gikk all in for å finne deg alle de beste foredragsholderne jeg kunne, og jeg mente det.
Som en flott partnerprat for å @samsja19 snakke om DiLoCo fra en applikasjonsside, vil @MatharyCharles (hovedforfatter på skaleringslovene for DiLoCo-artikkelen) holde et foredrag om teorien og nylige avsløringer på området!

1,57K
Se for deg den rytmiske støyen fra et helt datasenter som utfører forover-bakover og AR på tvers av tusenvis av GPU-er.
Et syn å se, datasenteret puster!

tenderizzation16. aug., 05:10
Jeg kan bokstavelig talt høre forover-bakover-passene som kjøres på denne arbeidsstasjonen ved siden av kuben min fra gpu-spolens sutrerytme
2,31K
Se for deg den rytmiske støyen fra et datasenter som utfører forover-bakover og AR på tvers av tusenvis av GPU-er.
Et syn å se, datasenteret puster!

tenderizzation16. aug., 05:10
Jeg kan bokstavelig talt høre forover-bakover-passene som kjøres på denne arbeidsstasjonen ved siden av kuben min fra gpu-spolens sutrerytme
35
Se for deg den rytmiske støyen fra et datasenter som utfører forover-bakover og AR på tvers av tusenvis av GPU-er.
Datasenteret puster!

tenderizzation16. aug., 05:10
Jeg kan bokstavelig talt høre forover-bakover-passene som kjøres på denne arbeidsstasjonen ved siden av kuben min fra gpu-spolens sutrerytme
34
Problemet med "forståelse" i dyp læring er at det faktisk sjelden holder i praksis, da det krever altfor mye forenkling av antakelser.
Jeg vil heller ha en SotA-modell med noen intuisjoner om hvorfor den fungerer enn en leketøysmodell med perfekt forståelse 🤷

yi16. aug., 09:55
Type forskerstiler
1. Forstå bare og vær fornøyd med det
2. Bygg, men uten forståelse
3. Forstå og bygg.
3 er idealistisk og høres sannsynligvis best ut, men realistisk sett kan 2 være farlig kraftig med de rette vibbene.
17,21K
Arthur Douillard lagt ut på nytt
Ett ord: nådeløs. Bare i løpet av de siste to ukene har vi sendt:
🌐 Genie 3 - den mest avanserte verdenssimulatoren noensinne
🤔 Gemini 2.5 Pro Deep Think tilgjengelig for Ultra-subs
🎓 Gemini Pro gratis for uni-studenter og $1 milliard for amerikanske ed
🌍 AlphaEarth - en geospatial modell av hele planeten
🏛️ Aeneas - dechiffrere gammel tekst (i @Nature)
🥇 Tvillingene gullmedaljenivå ved IMO
🧸 Historiebok - bøker m/kunst og lyd @GeminiApp
♛ Ny @Kaggle Game Arena-referanse for LLM-er
🐙 Jules, vår asynkrone kodeagent, ut av Beta
🇬🇧 AI-modus for søk tilgjengelig i Storbritannia
📔 Oversikt over NotebookLM-video
🔥 Gemma passerte 200 millioner nedlastinger
Nå vet du hvorfor jeg ikke får mye søvn 🛌 - for opptatt med å presse grensen!
1M
Arthur Douillard lagt ut på nytt
DiLoCo er en distribuert optimaliseringsmetode for opplæring av LLM-er på tvers av trege eller geografisk atskilte nettverk. Hver arbeider kjører mange lokale AdamW-trinn på sine egne data; bare hvert ~500 skritt sender arbeiderne kompakte «pseudo-gradienter» til en global Nesterov-momentum-optimaliserer, og kutter kommunikasjonen i størrelsesordener.
Denne sjelden synkroniseringsdesignen gjør opplæring mulig over dårlige koblinger og motstandsdyktig mot etternølere eller skiftende ressurser, selv om alle arbeidere fortsatt må møtes på samme globale trinn, noe som kan etterlate raske maskiner inaktive.
1,11K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til