Transformer vs. Mélange d’experts en LLM, clairement expliqué (avec des visuels) :
Le mélange d’experts (MoE) est une architecture populaire qui utilise différents « experts » pour améliorer les modèles de transformateurs. Le visuel ci-dessous explique en quoi ils diffèrent des Transformers. Plongeons dans le vif du sujet pour en savoir plus sur MoE !
Le Transformer et le MoE diffèrent dans le bloc décodeur : - Le Transformer utilise un réseau de neurones à propagation avant. - Le MoE utilise des experts, qui sont des réseaux de neurones à propagation avant mais plus petits par rapport à ceux du Transformer. Lors de l'inférence, un sous-ensemble d'experts est sélectionné. Cela rend l'inférence plus rapide dans le MoE.
Puisque le réseau a plusieurs couches de décodeurs : - le texte passe par différents experts à travers les couches. - les experts choisis diffèrent également entre les tokens. Mais comment le modèle décide-t-il quels experts devraient être idéaux ? Le routeur s'en charge. Discutons-en ensuite.
Le routeur est comme un classificateur multi-classe qui produit des scores softmax sur des experts. En fonction des scores, nous sélectionnons les meilleurs K experts. Le routeur est entraîné avec le réseau et il apprend à sélectionner les meilleurs experts. Mais ce n'est pas simple. Discutons des défis !
Défi 1) Remarquez ce schéma au début de l'entraînement : - Le modèle sélectionne "Expert 2" - L'expert s'améliore un peu - Il peut être sélectionné à nouveau - L'expert apprend davantage - Il est sélectionné à nouveau - Il apprend encore plus - Et ainsi de suite ! De nombreux experts sont sous-entrainés !
Nous résolvons cela en deux étapes : - Ajouter du bruit à la sortie feed-forward du routeur afin que d'autres experts puissent obtenir des logits plus élevés. - Mettre tous les logits sauf les K meilleurs à -infinity. Après softmax, ces scores deviennent zéro. De cette façon, d'autres experts ont également l'opportunité de s'entraîner.
Défi 2) Certains experts peuvent être exposés à plus de tokens que d'autres, ce qui peut entraîner des experts sous-formés. Nous prévenons cela en limitant le nombre de tokens qu'un expert peut traiter. Si un expert atteint la limite, le token d'entrée est transmis au meilleur expert suivant.
Les MoE ont plus de paramètres à charger. Cependant, une fraction d’entre eux sont activés puisque nous ne sélectionnons que quelques experts. Cela conduit à une inférence plus rapide. Mixtral 8x7B de @MistralAI est un célèbre LLM basé sur MoE. Voici à nouveau le visuel qui compare Transformers et MoE !
Si vous l’avez trouvé perspicace, partagez-le à nouveau avec votre réseau. Trouvez-moi → @akshay_pachaar ✔️ Pour plus d’informations et de tutoriels sur les LLM, les agents d’IA et l’apprentissage automatique !
Akshay 🚀
Akshay 🚀21 juil. 2025
Transformer vs. Mélange d’experts en LLM, clairement expliqué (avec des visuels) :
228,78K