Self-hosting GPU : quand ça vaut le coup (et quand ça ne vaut pas)

Bottom Line. Le self-hosting GPU génère une économie de 8 fois par token par rapport au cloud IaaS, et de 18 fois par rapport au frontier MaaS (Model as a Service). Mais ces économies ne sont rentables qu’à partir de 100 millions de tokens par mois — ou d’un spend API supérieur à 20 000 USD/mois. En dessous de ces seuils, la simplicité opérationnelle du cloud reste plus rentable que l’économie tarifaire du self-hosting.

Les économies documentées

Le self-hosting GPU — déployer ses propres modèles LLM sur des serveurs GPU propriétaires ou loués à long terme — est la stratégie qui offre les réductions de coût d’inférence les plus massives.

×8 par rapport au cloud IaaS. Déployer un modèle open-weights sur GPU propre coûte 8 fois moins cher par token que le même modèle hébergé sur AWS, Azure ou GCP en compute à la demande.

×18 par rapport au frontier MaaS. Par rapport à une API frontier (Claude, GPT, Gemini) facturée au million de tokens, le self-hosting d’un modèle open-weights de qualité comparable coûte 18 fois moins cher.

Ces économies sont mesurées sur des configurations H100 (ou équivalent) en datacenter EU, avec des modèles comme Mistral Large 3 ou DeepSeek-V3.2, sur des workloads d’inférence enterprise typiques.

Figure 1

Économie self-hosting vs cloud / MaaS — multiplicateur

L'économie est massive — mais elle suppose d'atteindre les seuils volumétriques de rentabilité.

Source : DR-09.5 · Observatoire IA Brain

Les seuils de rentabilité

Ces économies ne sont pas gratuites. Le self-hosting implique des coûts fixes importants — ingénierie, infrastructure, maintenance, sécurité — qui ne sont amortis qu’à partir de certains volumes.

Seuil volumétrique : 100 millions de tokens par mois. En dessous de ce volume, le coût fixe du self-hosting (infrastructure GPU, MLOps 1,5-2 FTE, maintenance) dépasse les économies sur le coût variable par token. Au-dessus, l’économie est structurelle et croissante.

Seuil financier : 20 000 USD/mois de spend API frontier. Ce seuil permet de rentabiliser une équipe de 1,5 à 2 FTE MLOps (180 000 à 350 000 €/an fully-loaded en France) en 4 à 6 mois. Payback total du self-hosting : 6 à 12 mois.

Ces deux seuils convergent : une ETI qui atteint 20 000 USD/mois de spend API frontier est généralement au-dessus de 100 millions de tokens/mois sur ses workloads principaux.

La déflation hardware accélère le retour sur investissement

Un facteur favorable rarement intégré dans les business cases self-hosting : la déflation du coût GPU.

Le coût d’un H100 a baissé de 56 à 81 % en 2 ans. Les GPU Blackwell B200 (4 fois plus performants que le H100) sont disponibles en location à des prix qui continuent de baisser.

Conséquence : le payback du self-hosting s’est réduit de 12 à 18 mois en 2023 à 6 à 12 mois en 2026. Et les organisations qui ont investi dans du GPU H100 en 2023 ont vu leur coût par token baisser de 56 à 81 % sans rien faire — simplement par déflation du marché.

Fine-tuning : les seuils de bascule

Prompt engineering → Fine-tuning : La bascule devient rationnelle dès 50 000 requêtes/mois avec un prompt système supérieur à 3 000 tokens (économie sur le contexte répété). Un exemple documenté : un fine-tune GPT-4o-mini sur 100 000 tokens coûtait 0,90 USD et se rentabilisait en moins d’un jour à 10 000 requêtes/jour.

Coûts de fine-tuning par modèle (2026) :

Modèle	Coût QLoRA	Contexte
Modèle 7B	3-11 USD	Formation courte
Modèle 70B (année 1)	92 000 USD	Infrastructure significative

Source : tco-fine-tuning-open-weights · Observatoire IA Brain

Les 7 modes d’échec documentés

Sous-estimation des coûts MLOps. L’ingénieur ML est le poste dominant, pas le GPU.
Surévaluation de la performance des modèles open-weights. Les benchmarks publics sont biaisés — tester en production interne avant de s’engager.
Absence de monitoring. Un modèle self-hosted sans observabilité dégrade silencieusement.
Mauvaise estimation du volume. Le seuil de 100M tokens/mois est souvent atteint plus tard que prévu.
Négligence de la sécurité. Self-hosting = responsabilité de la sécurité entière.
Fine-tuning prématuré. Optimiser avant d’avoir un use case stabilisé est un gaspillage documenté.
Vendor lock-in des frameworks. Certains frameworks de fine-tuning créent des dépendances difficiles à migrer.

Implication stratégique : Le self-hosting GPU est la stratégie la plus économique pour les organisations au-delà du seuil de 100M tokens/mois ou 20 000 USD/mois de spend API. En dessous, le cloud reste plus rationnel. La décision doit être basée sur ces seuils documentés — pas sur une aspiration à l’indépendance technologique ou sur la pression des vendors. Et quelle que soit la décision, les 7 modes d’échec documentés doivent être adressés avant le déploiement.