всегда приятно видеть больше работы по расширению diloco и снижению требований к пропускной способности для предварительного обучения!
Amir Sarfi
Amir Sarfi22 авг. 2025 г.
Представляем SparseLoCo: метод эффективной коммуникации для предобучения LLM. Кратко: Мы используем разрежение Top-k + обратную связь об ошибках с редкими внешними шагами DiLoCo — передавая только 1–3% градиентов с 2-битной квантизацией — превосходя DiLoCo и DeMo. 1/N, ArXiv: Github:
4,95K