Bottom Line. Le self-hosting GPU génère une économie de 8 fois par token par rapport au cloud IaaS, et de 18 fois par rapport au frontier MaaS (Model as a Service). Mais ces économies ne sont rentables qu’à partir de 100 millions de tokens par mois — ou d’un spend API supérieur à 20 000 USD/mois. En dessous de ces seuils, la simplicité opérationnelle du cloud reste plus rentable que l’économie tarifaire du self-hosting.
Les économies documentées
Le self-hosting GPU — déployer ses propres modèles LLM sur des serveurs GPU propriétaires ou loués à long terme — est la stratégie qui offre les réductions de coût d’inférence les plus massives.
×8 par rapport au cloud IaaS. Déployer un modèle open-weights sur GPU propre coûte 8 fois moins cher par token que le même modèle hébergé sur AWS, Azure ou GCP en compute à la demande.
×18 par rapport au frontier MaaS. Par rapport à une API frontier (Claude, GPT, Gemini) facturée au million de tokens, le self-hosting d’un modèle open-weights de qualité comparable coûte 18 fois moins cher.
Ces économies sont mesurées sur des configurations H100 (ou équivalent) en datacenter EU, avec des modèles comme Mistral Large 3 ou DeepSeek-V3.2, sur des workloads d’inférence enterprise typiques.
Économie self-hosting vs cloud / MaaS — multiplicateur
L'économie est massive — mais elle suppose d'atteindre les seuils volumétriques de rentabilité.
Les seuils de rentabilité
Ces économies ne sont pas gratuites. Le self-hosting implique des coûts fixes importants — ingénierie, infrastructure, maintenance, sécurité — qui ne sont amortis qu’à partir de certains volumes.
Seuil volumétrique : 100 millions de tokens par mois. En dessous de ce volume, le coût fixe du self-hosting (infrastructure GPU, MLOps 1,5-2 FTE, maintenance) dépasse les économies sur le coût variable par token. Au-dessus, l’économie est structurelle et croissante.
Seuil financier : 20 000 USD/mois de spend API frontier. Ce seuil permet de rentabiliser une équipe de 1,5 à 2 FTE MLOps (180 000 à 350 000 €/an fully-loaded en France) en 4 à 6 mois. Payback total du self-hosting : 6 à 12 mois.
Ces deux seuils convergent : une ETI qui atteint 20 000 USD/mois de spend API frontier est généralement au-dessus de 100 millions de tokens/mois sur ses workloads principaux.
La déflation hardware accélère le retour sur investissement
Un facteur favorable rarement intégré dans les business cases self-hosting : la déflation du coût GPU.
Le coût d’un H100 a baissé de 56 à 81 % en 2 ans. Les GPU Blackwell B200 (4 fois plus performants que le H100) sont disponibles en location à des prix qui continuent de baisser.
Conséquence : le payback du self-hosting s’est réduit de 12 à 18 mois en 2023 à 6 à 12 mois en 2026. Et les organisations qui ont investi dans du GPU H100 en 2023 ont vu leur coût par token baisser de 56 à 81 % sans rien faire — simplement par déflation du marché.
Fine-tuning : les seuils de bascule
Prompt engineering → Fine-tuning : La bascule devient rationnelle dès 50 000 requêtes/mois avec un prompt système supérieur à 3 000 tokens (économie sur le contexte répété). Un exemple documenté : un fine-tune GPT-4o-mini sur 100 000 tokens coûtait 0,90 USD et se rentabilisait en moins d’un jour à 10 000 requêtes/jour.
Coûts de fine-tuning par modèle (2026) :
| Modèle | Coût QLoRA | Contexte |
|---|---|---|
| Modèle 7B | 3-11 USD | Formation courte |
| Modèle 70B (année 1) | 92 000 USD | Infrastructure significative |
Source : tco-fine-tuning-open-weights · Observatoire IA Brain
Les 7 modes d’échec documentés
- Sous-estimation des coûts MLOps. L’ingénieur ML est le poste dominant, pas le GPU.
- Surévaluation de la performance des modèles open-weights. Les benchmarks publics sont biaisés — tester en production interne avant de s’engager.
- Absence de monitoring. Un modèle self-hosted sans observabilité dégrade silencieusement.
- Mauvaise estimation du volume. Le seuil de 100M tokens/mois est souvent atteint plus tard que prévu.
- Négligence de la sécurité. Self-hosting = responsabilité de la sécurité entière.
- Fine-tuning prématuré. Optimiser avant d’avoir un use case stabilisé est un gaspillage documenté.
- Vendor lock-in des frameworks. Certains frameworks de fine-tuning créent des dépendances difficiles à migrer.
Implication stratégique : Le self-hosting GPU est la stratégie la plus économique pour les organisations au-delà du seuil de 100M tokens/mois ou 20 000 USD/mois de spend API. En dessous, le cloud reste plus rationnel. La décision doit être basée sur ces seuils documentés — pas sur une aspiration à l’indépendance technologique ou sur la pression des vendors. Et quelle que soit la décision, les 7 modes d’échec documentés doivent être adressés avant le déploiement.