Transformator vs. Mix van experts in LLM's, duidelijk uitgelegd (met visuals):
Mixture of Experts (MoE) is een populaire architectuur die verschillende "experts" gebruikt om Transformer-modellen te verbeteren. In de onderstaande afbeelding wordt uitgelegd hoe ze verschillen van Transformers. Laten we erin duiken om meer te weten te komen over MoE!
Transformer en MoE verschillen in de decoderblok: - Transformer gebruikt een feedforward-netwerk. - MoE gebruikt experts, wat feedforward-netwerken zijn maar kleiner in vergelijking met die in Transformer. Tijdens inferentie wordt een subset van experts geselecteerd. Dit maakt inferentie sneller in MoE.
Aangezien het netwerk meerdere decoderlagen heeft: - de tekst gaat door verschillende experts in de lagen. - de gekozen experts verschillen ook tussen tokens. Maar hoe beslist het model welke experts ideaal zouden moeten zijn? Dat doet de router. Laten we het daar volgende keer over hebben.
De router is als een multi-class classifier die softmax-scores produceert over experts. Op basis van de scores selecteren we de top K experts. De router wordt getraind met het netwerk en leert de beste experts te selecteren. Maar het is niet eenvoudig. Laten we de uitdagingen bespreken!
Uitdaging 1) Let op dit patroon aan het begin van de training: - Het model selecteert "Expert 2" - De expert wordt een beetje beter - Het kan opnieuw geselecteerd worden - De expert leert meer - Het wordt opnieuw geselecteerd - Het leert meer - Enzovoort! Veel experts worden onvoldoende getraind!
We lossen dit in twee stappen op: - Voeg ruis toe aan de feed-forward output van de router, zodat andere experts hogere logits kunnen krijgen. - Zet alle logits behalve de top K op -oneindig. Na softmax worden deze scores nul. Op deze manier krijgen andere experts ook de kans om te trainen.
Uitdaging 2) Sommige experts kunnen aan meer tokens worden blootgesteld dan anderen, wat leidt tot ondergetrainde experts. We voorkomen dit door het aantal tokens dat een expert kan verwerken te beperken. Als een expert de limiet bereikt, wordt het invoertoken doorgegeven aan de volgende beste expert.
MoE's hebben meer parameters om te laden. Een fractie van hen wordt echter geactiveerd omdat we slechts enkele experts selecteren. Dit leidt tot snellere gevolgtrekking. Mixtral 8x7B van @MistralAI is een beroemde LLM die is gebaseerd op MoE. Hier is de visual weer die Transformers en MoE vergelijkt!
Als je het inzichtelijk vond, deel het dan opnieuw met je netwerk. Vind me → @akshay_pachaar ✔️ Voor meer inzichten en tutorials over LLM's, AI Agents en Machine Learning!
Akshay 🚀
Akshay 🚀21 jul 2025
Transformator vs. Mix van experts in LLM's, duidelijk uitgelegd (met visuals):
228,84K