Pokud jde o distribuované školení AI, zjistil jsem, že lidé v kruhu web2AI to označí za "falešný návrh" na základě toho, že výpočetní výkon zařízení lze agregovat, ale distribuovaná a efektivní spolupráce má strašlivé náklady na šířku pásma? A @0G_labs nedávno publikoval článek DiLoCox, zdá se, že cílem je tento problém vyřešit? Promluvme si o tom podrobně: 1) Promluvme si o tom, proč je distribuované školení považováno za "nepravdivé tvrzení". Základní rozpor je jednoduchý: chcete nahradit 100 A100 agregací 100 levných GPU, což zdánlivě ušetří 90 % nákladů na hardware, ale těchto 100 GPU je třeba trénovat synchronně a každá epocha si musí vyměňovat terabajty gradientních dat. Tradiční řešení vyžadují 100 Gb/s vyhrazené šířky pásma linky, zatímco dosažení sítě na úrovni datového centra 100 Gb/s může stát stovky tisíc dolarů měsíčně. Celkově všechny peníze za GPU, které ušetříte, utratíte za šířku pásma, a dokonce i vzhůru nohama. Podle této logiky úspora nákladů na stroj, ale vznik dalších nákladů na šířku pásma neznamená, že problém nebyl vyřešen? Proto zde vždy bylo jádro kritiky jako nepravdivého tvrzení. 2) Článek DiLoCoX od 0G přitáhl pozornost, protože tvrdil, že trénuje model parametrů 107B na síti 1 Gb/s (normální kancelářská šířka pásma), což je 357krát rychlejší než tradiční schéma AllReduce. Tohle číslo je opravdu výbušné - víte, 1 Gb/s vs 100 Gb/s, rozdíl v šířce pásma je 100krát, ale rychlost tréninku je 357krát vyšší? Jak na to? Po hrubé studii bylo zjištěno, že tato sada schémat provedla čtyři optimalizace: Paralelismus potrubí rozdělí model na segmenty; Zásady duálního optimalizátoru Snižuje frekvenci synchronizace pomocí zásad duálního optimalizátoru. One-Step-Delay Overlap umožňuje, aby komunikace a výpočetní technika běžely paralelně, aniž by na sebe čekaly. Adaptivní komprese přechodů inteligentně komprimuje přechody. Laicky řečeno jde o změnu původně požadované "real-time strong synchronization" na "asynchronous weak synchronization" a změnu "full data transmission" na "komprimovaný inkrementální přenos". Například, zatímco tradiční řešení jsou jako videokonference v reálném čase pro 100 osob, kde je každá akce každého člověka vysílána současně, DiLoCoX je jako každý nahrává samostatně a poté odesílá pouze klíčové snímky a změny. Objem provozu se snížil 100krát, ale integrita informací zůstala nad 99 %. Proč je to možné? Podle mého názoru je jádrem to, že zachycují vlastnost tréninku AI - odolnost proti chybám. Trénování modelu není jako převod transakce, který není ani o cent krátký. Aktualizace přechodu je trochu chybná, synchronizace je zpožděná a výsledný efekt konvergence modelu má malý dopad. DiLoCoX využívá tento "prostor odolnosti proti poruchám" k výměně přijatelných ztrát přesnosti za řádové zvýšení efektivity. To je typické inženýrské myšlení - nehonba za dokonalostí, snaha o nejlepší poměr ceny a výkonu. 3) K vyřešení problému s šířkou pásma to ale nestačí, 0G je samozřejmě ambicióznější. Stačí se podívat na jejich celkovou architekturu: mají také úložnou vrstvu 10 $/TB, která přímo tvrdí, že rozdrtí Filecoin, a vrstva DA je navržena tak, aby umělá inteligence dosáhla propustnosti na úrovni GB. Důvodem, proč lze díky návrhu dosáhnout úložiště 100x levněji, je řečeno na rovinu, jde i o speciální optimalizaci scénářů školení AI, například životní cyklus kontrolních bodů a logů generovaných během procesu školení je jen několik dní, ve skutečnosti není potřeba striktně dosahovat "trvalého úložiště". Proto je ve skutečnosti přijato pragmatické řešení "vrstveného úložiště" a v případě potřeby je poskytována pouze odpovídající úroveň služeb - horká data se čtou a zapisují rychle, ale dražší, studená data jsou levnější, ale pomalejší a dočasná data se nejnejrychleji odstraňují, když jsou vyčerpána. A právě tato diferencovaná cenová politika přímo zasahuje klíčové body školení AI. Nad. Je vidět, že 0G Labs záměrně přizpůsobily umělou inteligenci problémům s výpočetním výkonem, úložištěm a oběhem dat v procesu trénování umělé inteligence. Dokonce i mechanismus konsensu byl optimalizován pro AI. Vylepšená verze CometBFT se používá s 2500+ TPS s konečností pod sekundu, která je speciálně vyladěna pro asynchronní charakteristiky AI zátěže atd. Jinými slovy, místo "záplatování" umělé inteligence na stávajících blockchainech navrhla společnost 0G od nuly "umělou inteligenci" infrastrukturu. Pokud jde o to, zda může konečně získat komerční ověření na aplikační úrovni pod tlakem konkurence s tradiční umělou inteligencí, to se teprve uvidí, ale tato diferencovaná průlomová myšlenka stojí za to se z ní poučit.
5,22K