GPU cloud : les entreprises paient pour 95 % de puissance qu’elles n’utilisent pas

Les chiffres du rapport Cast AI 2026 sur Kubernetes révèlent que les budgets cloud explosent, mais la consommation réelle des ressources reste au plancher. Un constat qui force les DSI à revoir leur copie sur la gestion des infrastructures IA.

Cast AI, spécialiste de l’automatisation cloud, publie son rapport annuel « State of Kubernetes Optimization ». L’étude, fondée sur l’analyse de clusters Kubernetes non optimisés, dresse un tableau brutal : en 2025, le taux d’utilisation moyen des CPU n’atteignait que 8 %, celui de la mémoire 20 %. Pour les GPU, ressources les plus coûteuses de l’écosystème cloud, le chiffre tombe à 5 %. Autrement dit, 95 % de la puissance GPU achetée par les entreprises tourne à vide.

L’IA amplifie une gabegie déjà structurelle
Le paradoxe est d’autant plus saisissant que les investissements en infrastructure IA n’ont jamais été aussi élevés. Les entreprises multiplient les nœuds GPU pour entraîner des modèles, faire tourner des charges d’inférence ou expérimenter de nouveaux cas d’usage et laissent l’essentiel de cette capacité inutilisée. Un GPU inactif coûte plusieurs dollars par heure, contre quelques centimes pour un CPU. À l’échelle d’un parc de clusters, le surcoût devient massif et, souvent, peu visible dans les tableaux de bord financiers.

Cast AI signale une hausse de 15 % du prix des instances H200, une première après deux décennies de baisse continue des tarifs cloud. La marge d’erreur sur la gestion des ressources se réduit précisément au moment où les besoins augmentent.

Le rightsizing ponctuel, une illusion à grande échelle
Le rapport s’attaque également à une idée reçue solidement ancrée dans les équipes DevOps : celle selon laquelle la configuration d’un cluster, une fois réalisée au déploiement, n’aurait pas besoin d’être revisitée. Cast AI démontre le contraire. Les workloads évoluent en permanence, les pics de charge se déplacent, les priorités métier changent. Une configuration jugée optimale il y a six mois est mécaniquement obsolète aujourd’hui.

Instances Spot, autoscaling, gestion des engagements de capacité, chacun de ces leviers varie dans le temps et dépasse les capacités de pilotage manuel dès que l’infrastructure atteint une certaine taille. « L’optimisation autonome devient une nécessité face à une économie du cloud moins favorable », résume Laurent Gil, cofondateur et président de Cast AI.

Pour les entreprises engagées dans des projets IA structurants, l’enjeu n’est donc plus seulement technique. Il est financier et stratégique : sans automatisation continue du rightsizing, le gaspillage de ressources GPU s’annonce comme l’un des postes de coûts les plus lourds (et les moins maîtrisés) de l’infrastructure cloud moderne.

Source: InfoDSI