Bottom Line. L’architecture Mixture of Experts représente 60 à 70 % des nouveaux modèles open-source majeurs en 2026. Elle offre des réductions de coût de 89 à 95 % par rapport aux modèles denses de qualité comparable — tout en doublant, voire quintuplant, le throughput. Pour les ETI et GE qui construisent leur stratégie LLM, ignorer le MoE est une erreur économique documentée.
Le principe fondamental
L’architecture Mixture of Experts remplace les blocs Feed-Forward Network denses par un ensemble d’experts spécialisés, dont seul un sous-ensemble est activé par un mécanisme de routage pour chaque token. Le ratio paramètres actifs / paramètres totaux — typiquement entre 4 % et 28 % — est la clé de l’avantage économique.
En termes simples : un modèle MoE est un modèle massif qui n’utilise qu’une fraction de ses capacités à chaque instant. Il combine la qualité d’un grand modèle avec le coût d’inférence d’un petit.
En avril 2026, les modèles MoE représentent 60 à 70 % des nouveaux modèles open-source majeurs — contre seulement 25 % en 2023. Ce n’est plus une architecture expérimentale. C’est le standard industriel.
Réduction de coût MoE vs modèle dense de qualité comparable
Trois comparaisons documentées sur des workloads enterprise réels.
Les modèles MoE en production (avril 2026)
| Modèle | Architecture | Params totaux | Params actifs | Ratio actifs |
|---|---|---|---|---|
| DeepSeek-V3 | MoE (256 experts, top-8) | 671B | 37B | 5,5 % |
| Llama 4 Maverick | MoE (128 experts) | 402B | 17B | 4,2 % |
| Mistral Large 3 | MoE | 675B | 41B | 6,1 % |
| Qwen3-235B-A22B | MoE | 235B | 22B | 9,4 % |
| Gemma 4 26B | MoE (128 experts, top-2) | 26B | 3,8B | 14,6 % |
DeepSeek-V3 utilise 37 milliards de paramètres actifs sur 671 milliards totaux — soit 5,5 %. La qualité d’un modèle de 671 milliards de paramètres. Le coût d’inférence d’un modèle de 37 milliards.
L’avantage coût : 89 à 95 % de réduction
Ces réductions de 89 à 95 % sont mesurées en production sur des workloads enterprise réels — pas sur des benchmarks de laboratoire. Un modèle MoE open-weights à 0,29 USD/M tokens offre 90 à 95 % de la qualité d’un frontier dense à 6,00 USD/M. Le ratio qualité/prix est 20 fois supérieur.
L’avantage latence : +150 à +500 % de throughput
Le coût n’est pas le seul avantage. Les architectures MoE atteignent un throughput 150 à 500 % supérieur aux modèles denses de taille comparable, en raison du faible nombre de paramètres actifs par inférence. Pour les applications temps-réel (chatbots, agents interactifs, assistance en ligne), cet avantage de latence est aussi critique que l’avantage coût.
Ce que ça implique pour la stratégie LLM
L’équation du self-hosting. Le seuil de rentabilité du self-hosting GPU (100 millions de tokens/mois) est atteint beaucoup plus tôt avec un modèle MoE qu’avec un frontier dense — parce que le coût d’inférence par token est structurellement plus bas, et que la puissance de calcul nécessaire est proportionnelle aux paramètres actifs, pas aux paramètres totaux.
L’équation de la souveraineté. Les modèles MoE open-weights sous Apache 2.0 (Mistral Large 3, Mistral Small 3.1) sont déployables en infrastructure EU sans dépendance à un vendor américain. Ils offrent un niveau de performance qui rendait cette stratégie économiquement raisonnable.
L’équation du routage. L’architecture tiered (utility → mid-range → premium) devient encore plus pertinente quand le mid-range est un MoE à 0,29-0,50 USD/M qui couvre 90 % des cas d’usage enterprise. Le premium dense (5,00-30,00 USD/M) est réservé aux 5-10 % de tâches véritablement critiques.
Implication stratégique : Pour les ETI avec un budget IA inférieur à 100 000 EUR/an, le MoE open-weights self-hosted est la voie la plus rationnelle économiquement. Le déploiement d’un modèle MoE comme Mistral Large 3 ou DeepSeek-V3.2 sur infrastructure EU souveraine offre 90-95 % de la qualité frontier à 5 à 20 fois moins cher. Toute architecture LLM construite en 2026 sans intégrer le MoE sous-optimise structurellement le rapport qualité/coût.