DiLoCo は、低速ネットワークまたは地理的に離れたネットワーク間で LLM をトレーニングするための分散最適化手法です。各ワーカーは、独自のデータに対して多くのローカル AdamW ステップを実行します。ワーカーは、~500 ステップごとに、コンパクトな「擬似勾配」をグローバル ネステロフ運動量オプティマイザーに送信し、通信を桁違いに削減します。 この頻度の低い同期設計により、不十分なリンクでもトレーニングが可能になり、落伍者やリソースの移動に対して回復力がありますが、すべてのワーカーは依然として同じグローバル ステップでランデブーする必要があるため、高速マシンがアイドル状態になる可能性があります。
1.12K