Bottom Line. Le coût d’un million de tokens a été divisé par 1 000 entre 2022 et 2025. Pourtant, la facture totale IA des organisations a augmenté de 320 % sur la même période. C’est le paradoxe de Jevons appliqué aux LLM : quand le coût unitaire baisse, la consommation augmente plus vite. Comprendre ce mécanisme est le prérequis à toute stratégie FinOps IA sérieuse.
Le paradoxe en chiffres
William Stanley Jevons observait en 1865 que l’amélioration de l’efficacité des machines à vapeur n’avait pas réduit la consommation de charbon — elle l’avait augmentée, car l’énergie moins chère avait rendu économiquement viables des usages qui ne l’étaient pas auparavant.
Le même mécanisme opère sur les LLM avec une intensité remarquable.
Un exemple documenté : un service client type est passé de 500 interactions par jour à 15 000, avec 5,6 fois plus de tokens par interaction. La dépense totale a augmenté de 320 % malgré une chute de 1 000 fois du coût par token entre 2022 et 2025.
Ce n’est pas une anomalie — c’est le mécanisme fondamental par lequel l’IA générative crée de la valeur.
Le paradoxe en deux chiffres
La déflation tarifaire n'a pas réduit les budgets — elle les a fait exploser via la multiplication des cas d'usage.
Pourquoi ça arrive
La baisse du coût unitaire rend économiquement viables des cas d’usage qui ne l’étaient pas. Chaque fois que le prix descend d’un ordre de grandeur, une nouvelle catégorie d’usage devient rationnelle :
- À 30 USD/M tokens (2023) : seuls les cas d’usage à forte valeur ajoutée justifient le coût
- À 5 USD/M tokens (2024) : les applications métier courantes deviennent viables
- À 0,10-0,40 USD/M tokens (2026) : quasiment tout est économiquement rationnel
Analyser chaque email entrant. Scorer chaque CV. Résumer chaque réunion. Personnaliser chaque interaction client. Ces usages, à 30 USD/M tokens, étaient impossibles. À 0,10 USD/M tokens, ils sont quasi-gratuits à l’unité — mais massifs en volume.
Le piège du « c’est moins cher »
L’erreur la plus fréquente dans les comités de direction IA : utiliser la baisse des prix par token pour justifier l’absence de gouvernance des coûts.
« Les tokens coûtent 300 fois moins qu’en 2023 — nos coûts vont baisser. »
En réalité, la baisse des prix par token est compensée, voire dépassée, par l’explosion des volumes. Les organisations qui déploient massivement sans stratégie FinOps voient leur facture API croître de manière non linéaire et non anticipée.
80 % des entreprises dépassent leurs prévisions budgétaires IA de plus de 25 % (CloudZero, 2025). Le paradoxe de Jevons est la première explication de ce dépassement systématique.
La réponse FinOps : maîtriser la consommation sans freiner la valeur
Le paradoxe de Jevons n’est pas un problème à résoudre — c’est un mécanisme à comprendre et à encadrer. L’objectif du FinOps LLM n’est pas de réduire l’usage, mais de s’assurer que chaque token consommé génère une valeur proportionnelle.
1. Routage intelligent par valeur. Router vers le modèle le moins cher qui atteint la qualité requise pour chaque tâche. 70 à 80 % des requêtes ne nécessitent pas de frontier — un tier utility à 0,10 USD/M suffit. Économie : 60 à 80 % de la facture API.
2. Caching sémantique. Les prompts système répétitifs (instructions fixes, contexte métier stable) peuvent être cachés. Anthropic réduit ces tokens à 90 %, OpenAI à 50-90 % automatiquement. Break-even : 1,4 lectures du même prompt.
3. Priorisation des cas d’usage par ROI. Tous les usages rendus possibles par la baisse des prix ne génèrent pas la même valeur. Un cadre de priorisation ROI évite de financer des usages marginaux au détriment des cas critiques.
Implication stratégique : Le paradoxe de Jevons est le mécanisme qui explique pourquoi la déflation des tokens ne réduit pas les factures IA. La réponse n’est pas de freiner l’adoption — c’est d’implémenter une gouvernance FinOps qui aligne la consommation sur la valeur créée. Sans cette gouvernance, 50 à 90 % du spend API est gaspillé sur des usages à faible ROI.