Wenn es um verteiltes Training von KI geht, stelle ich fest, dass die Leute im web2AI-Bereich oft den "Pseudo-Argument"-Stempel aufdrücken, mit der Begründung, dass Rechenleistung aggregiert werden kann, aber die effektive Zusammenarbeit im verteilten System mit schrecklichen Bandbreitenkosten verbunden ist? Und @0G_labs hat kürzlich das DiLoCox-Papier veröffentlicht, das anscheinend darauf abzielt, dieses Problem zu lösen? Lass uns das im Detail besprechen: 1) Zuerst, warum wird verteiltes Training als "Pseudo-Argument" angesehen? Der Kernkonflikt ist ganz einfach: Du möchtest 100 günstige GPUs aggregieren, um 100 A100 zu ersetzen, was auf den ersten Blick 90% der Hardwarekosten spart, aber diese 100 GPUs müssen synchron trainieren, und jeder Epoch muss TB an Gradienten-Daten ausgetauscht werden. Traditionelle Lösungen benötigen eine dedizierte Bandbreite von 100 Gbps, und um eine solche datenzentrierte Netzwerkgeschwindigkeit zu erreichen, können die monatlichen Kosten in die Zehntausende von Dollar gehen. Wenn man das zusammenrechnet, gibt man das gesparte Geld für GPUs für die Bandbreite aus, und man hat sogar noch zusätzliche Kosten. Nach dieser Logik hat man die Maschinenkosten gesenkt, aber zusätzliche Bandbreitenkosten verursacht, was bedeutet, dass das Problem nicht gelöst wurde? Daher wird das Pseudo-Argument als das Hauptproblem angesehen. 2) Das DiLoCoX-Papier von 0G hat Aufmerksamkeit erregt, weil sie behaupten, ein 107B-Parameter-Modell über ein 1 Gbps-Netzwerk (normale Bürobandbreite) trainiert zu haben, und die Geschwindigkeit 357-mal schneller ist als bei traditionellen AllReduce-Lösungen. Diese Zahl ist wirklich beeindruckend – man muss wissen, dass 1 Gbps vs. 100 Gbps eine Bandbreiten-Differenz von 100-fach bedeutet, aber die Trainingsgeschwindigkeit um 357-fach gesteigert wurde? Wie haben sie das konkret erreicht? Nach einer groben Untersuchung stellte ich fest, dass dieses System vier Optimierungen vorgenommen hat: Pipeline Parallelismus, um das Modell in Segmente zu zerlegen; Dual Optimizer Policy, um die Synchronisationsfrequenz zu reduzieren; One-Step-Delay Overlap, um Kommunikation und Berechnung parallel zu gestalten, ohne aufeinander zu warten; Adaptive Gradient Compression, um die Gradienten intelligent zu komprimieren. Einfacher ausgedrückt, wurde die ursprünglich erforderliche "Echtzeit-Synchronisation" in "asynchrone schwache Synchronisation" umgewandelt, und der "vollständige Datentransfer" wurde in "komprimierte inkrementelle Übertragung" geändert. Um es zu veranschaulichen: Die traditionelle Lösung ist wie eine Echtzeit-Videokonferenz mit 100 Personen, bei der jede Bewegung synchron übertragen werden muss, während DiLoCoX so funktioniert, dass jeder seine eigene Aufnahme macht und nur die Schlüsselbilder und Änderungen sendet. Das Kommunikationsvolumen wurde um das 100-fache reduziert, aber die Informationsvollständigkeit bleibt über 99%. Warum ist das möglich? Meiner Meinung nach liegt der Kern darin, dass sie eine Eigenschaft des KI-Trainings erfasst haben – Fehlertoleranz. Das Trainieren eines Modells ist nicht wie eine Transaktion, bei der jeder Cent zählt. Ein bisschen Fehler bei der Gradientenaktualisierung oder eine kleine Verzögerung bei der Synchronisation haben nur einen minimalen Einfluss auf die endgültige Konvergenz des Modells. DiLoCoX nutzt diesen "Fehlertoleranzraum", um akzeptable Genauigkeitsverluste gegen eine Größenordnung an Effizienzsteigerung einzutauschen. Das ist typisches Ingenieurdenken – nicht nach Perfektion streben, sondern nach dem besten Preis-Leistungs-Verhältnis. 3) Aber nur das Bandbreitenproblem zu lösen, reicht nicht aus; 0G hat offensichtlich größere Ambitionen. Wenn man sich ihre gesamte Architektur ansieht, wird klar: Sie haben auch eine Storage-Schicht, die $10/TB kostet und direkt behauptet, Filecoin zu übertreffen, und die DA-Schicht ist speziell für KI entworfen und erreicht GB-geschwindigkeit. Der Grund, warum sie eine 100-fache Kostensenkung bei der Speicherung erreichen können, liegt darin, dass sie spezielle Optimierungen für KI-Trainingsszenarien vorgenommen haben. Beispielsweise sind die TB großen Daten, die während des Trainingsprozesses erzeugt werden, wie Checkpoints und Protokolle, nur wenige Tage lang relevant und müssen nicht unbedingt "dauerhaft gespeichert" werden. Daher haben sie tatsächlich einen pragmatischen Ansatz mit "gestaffelter Speicherung" gewählt, bei dem nur bei Bedarf die entsprechenden Servicelevel bereitgestellt werden – heiße Daten werden schnell, aber teurer gelesen und geschrieben, kalte Daten sind billig, aber langsamer, und temporäre Daten werden nach Gebrauch gelöscht, was am günstigsten ist. Und genau diese differenzierte Preisgestaltung trifft direkt den Kern des KI-Trainings. Zusammenfassend lässt sich sagen, dass 0G Labs in Bezug auf Rechenleistung, Speicherung und Datenfluss im KI-Trainingsprozess bewusst auf KI-Optimierung gesetzt hat. Sogar der Konsensmechanismus wurde für KI optimiert. Sie verwenden eine verbesserte Version von CometBFT, die 2500+ TPS mit subsekündlicher Finalität kombiniert, speziell für die asynchrone Natur von KI-Workloads optimiert usw. Mit anderen Worten, 0G "patcht" nicht einfach bestehende Blockchains, um KI zu unterstützen, sondern hat von Grund auf eine "AI Native" Infrastruktur entworfen. Ob es letztendlich in der Konkurrenz mit traditioneller KI eine kommerzielle Validierung auf Anwendungsebene erreichen kann, wird sich zeigen, aber dieser differenzierte Ansatz ist definitiv wert, als Beispiel genommen zu werden.
5,22K