Es ist immer schön zu sehen, dass mehr Arbeit in die Erweiterung von diloco gesteckt wird und die Bandbreitenanforderungen für das Pretraining reduziert werden!
Amir Sarfi
Amir Sarfi22. Aug. 2025
Einführung von SparseLoCo: eine kommunikationseffiziente Methode für das Pre-Training von LLM. TL;DR: Wir nutzen Top-k-Sparsifikation + Fehlerfeedback mit den seltenen äußeren Schritten von DiLoCo – kommunizieren nur 1–3% der Gradienten mit 2-Bit-Quantisierung – und übertreffen DiLoCo und DeMo. 1/N, ArXiv: Github:
4,97K