Pricing · Modèles

La déflation 300× : pourquoi tout contrat LLM pluriannuel signé avant 2026 est une erreur

En 36 mois, le coût d'un million de tokens GPT-4-équivalent est passé de 30 USD à 0,10 USD. Pourquoi cette déflation est structurelle et ce qu'elle change pour les contrats.

Brain Pricing · LLM · FinOps
Extrait du rapport Rapport IA Adoption Brain — Édition Q2 2026 10 chapitres · 100+ sources · Accès gratuit par email

Bottom Line. En 36 mois, le coût d’un million de tokens GPT-4-équivalent est passé de 30 USD à 0,10 USD. Une réduction de 300 fois. Cette déflation n’est pas conjoncturelle — elle est structurelle, et elle obéit à une loi empirique. Ses implications pour les contrats, les architectures et les décisions d’investissement des CAIO et DSI européens sont profondes.

Une déflation sans équivalent dans l’histoire du logiciel

L’industrie logicielle a connu des baisses de prix remarquables. Le coût du stockage cloud a été divisé par 10 en 10 ans. La loi de Moore a doublé les performances des processeurs tous les 18 mois depuis 50 ans. Aucune de ces trajectoires n’approche ce qui s’est produit sur le marché des LLM entre mars 2023 et avril 2026.

En 36 mois, le coût d’un million de tokens en entrée pour un modèle équivalent GPT-4 est passé de 30 USD à 0,10 USD. C’est une réduction de 300 fois. Trois ordres de grandeur. En moins de trois ans.

La chronologie est précise, et chaque étape a été déclenchée par un événement de marché spécifique :

PériodeCoût GPT-4-équivalent / 1M tokensRéductionDéclencheur
Mars 202330,00 USDLancement GPT-4
Octobre 20245,00 USDCompétition OpenAI / Google / Anthropic
Décembre 20240,27 USD111×Disruption DeepSeek V3
Avril 2026 (utility tier)0,10-0,40 USD75-300×MoE + quantization + compétition chinoise

Source : Observatoire IA Brain Q2 2026 — DR-09.1, compilations multi-sources

Figure 1

Coût d'un million de tokens GPT-4-équivalent — 2023 à 2026

Échelle logarithmique. La courbe suit la loi de Wright (-56 % par doublement de production cumulée).

Source : Observatoire IA Brain · DR-09.1, compilations multi-sources

La loi de Wright appliquée aux LLM

Cette trajectoire n’est pas aléatoire. Elle obéit à la loi de Wright : pour chaque doublement de la quantité cumulée de tokens produits dans le monde, le coût de production baisse de 56 %. Cette loi empirique, validée sur l’aviation commerciale et les semi-conducteurs depuis des décennies, s’applique aux LLM avec une précision remarquable.

Son implication la plus importante pour les décideurs : la déflation n’est pas conjoncturelle — ce n’est pas une guerre des prix temporaire entre quelques acteurs. C’est une réduction structurelle et irréversible liée aux gains d’efficacité cumulatifs. Gartner prévoit une réduction supplémentaire de 90 % d’ici 2030.

Tout contrat à prix fixe signé aujourd’hui sera structurellement surévalué dans 12 mois.

Le marché se segmente en trois niveaux

En avril 2026, le marché des modèles s’est structuré autour de trois tiers distincts, avec un spread de prix de 18 750 fois entre le moins cher (Mistral Nemo à 0,02 USD/M) et le plus coûteux (o3 Pro à 150 USD/M) :

Niveau Utility (0,05-0,40 USD/M input) — Performances équivalentes à GPT-4 2023. Couvre 70 à 80 % des tâches enterprise courantes : classification, extraction, résumé, FAQ. Modèles : GPT-5.4 Nano (0,05 USD), Gemini Flash-Lite (0,10 USD), DeepSeek V3.2 (0,14 USD).

Niveau Mid-range (0,50-3,00 USD/M input) — Raisonnement complexe, coding, analyse documentaire. Modèles : Mistral Large 3 (0,50 USD), Gemini 3.1 Pro (2,00 USD), Claude Sonnet 4.6 (3,00 USD), GPT-5.4 (2,50 USD).

Niveau Premium (5,00-30,00 USD/M input) — Maximum qualité, raisonnement multi-étapes, cas critiques. Modèles : Claude Opus 4.6 (5,00 USD), GPT-5.4 Pro (30,00 USD), o3 Pro (150,00 USD).

La logique de déploiement qui en découle est simple : router 70 à 80 % des requêtes vers le tier utility, 15 à 20 % vers le mid-range, 5 à 10 % vers le premium. Cette seule décision architecturale réduit la facture API de 60 à 80 % sans perte de qualité sur les tâches concernées.

Le paradoxe de Jevons : la baisse des prix augmente la dépense

La déflation de 300 fois ne se traduit pas en réduction de la facture totale. C’est le paradoxe de Jevons appliqué aux LLM : quand le coût unitaire baisse, la consommation augmente plus vite.

Un exemple documenté : un service client type est passé de 500 interactions par jour à 15 000, avec 5,6 fois plus de tokens par interaction. La dépense totale a augmenté de 320 % malgré une chute de 1 000 fois du coût par token entre 2022 et 2025.

Ce paradoxe n’est pas une anomalie — c’est le mécanisme fondamental par lequel l’IA crée de la valeur. La baisse du coût unitaire rend économiquement viables des cas d’usage qui ne l’étaient pas. La valeur créée dépasse le coût additionnel — mais uniquement si les cas d’usage sont correctement priorisés et le TCO maîtrisé.

Les 3 facteurs structurels de la déflation

Comprendre l’origine de la déflation permet d’anticiper sa trajectoire :

FacteurContributionMécanisme
Efficacité algorithmique60 %MoE, distillation, quantization, attention optimisée
Hardware30 %Blackwell B200 : 4× la performance du H100
Compétition10 %DeepSeek comme signal de la course vers le bas

Source : Observatoire IA Brain Q2 2026 — DR-09.1

La domination de l’efficacité algorithmique (60 %) sur le hardware (30 %) est un fait stratégique critique. Elle signifie que les gains futurs viendront principalement des innovations logicielles — pas des nouvelles puces. Les acteurs capables d’innover algorithmiquement (comme DeepSeek, avec un budget hardware modeste) peuvent disrupter le marché indépendamment de leur accès au GPU.

Implications contractuelles immédiates

Pour les CAIO et DSI qui négocient des contrats LLM en 2026, trois règles émergent :

Ne jamais signer un prix fixe pluriannuel. La loi de Wright garantit que tout prix fixé aujourd’hui sera surévalué dans 12 mois. Imposer des clauses de révision tarifaire trimestrielle ou, à défaut, des engagements courts (6 à 12 mois maximum).

Auditer l’architecture de routage. Déployer un modèle frontier sur 100 % du trafic quand 70 à 80 % des requêtes sont traitables par un modèle utility représente un gaspillage de 10 à 50 fois. Le routeur intelligent n’est pas une optimisation — c’est une nécessité architecturale.

Recalculer tout TCO réalisé avant 2026. Toute analyse de coût total de possession réalisée avant le premier trimestre 2026 est obsolète. Les hypothèses tarifaires ont changé de 75 à 300 fois.

Implication stratégique : La déflation des LLM est le fait économique le plus structurant du marché IA enterprise en 2026. Elle redistribue les avantages compétitifs : les organisations qui maîtrisent le routage intelligent, le caching et l’architecture tiered économisent 60 à 95 % de leur facture API par rapport aux déploiements non optimisés. Cet écart de coût est un avantage compétitif durable.