Google, numéro un mondial du calcul IA, mise tout sur ses puces TPU

Plus de 60 % de la capacité mondiale de calcul IA est détenue par les hyperscalers, avec Google en tête, ce qui soulève de nouvelles questions concernant le contrôle, le pouvoir de fixation des prix et l'accès.

C'est officiel : Google est le plus grand détenteur individuel de puissance de calcul dédiée à l'IA, et ce, en grande partie sans Nvidia. Selon une étude de l'institut de recherche Epoch AI, plus de 60 % de la puissance de calcul mondiale dédiée à l'IA est détenue par des hyperscalers américains, et Google en détient environ un quart. Et tandis que la firme de Mountain View s'appuie fortement sur ses puces TPU (unités de traitement tensoriel), bon nombre de ses concurrents restent liés à Nvidia. Cette concentration précoce de la puissance de calcul et des infrastructures entre les mains d'une poignée de géants pourrait dicter le rythme de l'évolution de l'IA, notent les analystes. « Personne ne doute des investissements massifs nécessaires pour devenir un hyperscaler », a fait remarquer l'analyste technologique indépendant Carmi Levy. Ils peuvent offrir des économies d'échelle dont « les petits acteurs ne peuvent que rêver », a-t-il souligné. « Mais lorsqu'ils sont pratiquement les seuls acteurs sur le marché, il est difficile d'ignorer leur capacité à influencer les prix, les conditions et la disponibilité sur un marché qui n'a littéralement pas d'autre choix », a-t-il déclaré.

Une forte dépendance à Nvidia

Epoch AI évalue la capacité de calcul en « unités équivalentes H100 (H100e) », définies comme un cloud ou une entreprise disposant de suffisamment de TPU, d’unités de traitement graphique (GPU) ou d’autres accélérateurs pour égaler la puissance d’une puce Nvidia H100. Selon cette mesure, Google détient l’équivalent d’environ 5 millions de GPU H100 en capacité de calcul, dont environ 4 millions dans ses puces TPU personnalisées. Le géant technologique n’héberge qu’environ un quart de sa capacité de calcul sur des GPU Nvidia. C’est « considérablement moins » que ses concurrents, note Matt Kimball, vice-président et analyste principal chez Moor Insights & Strategy. « Cela montre à quel point l'entreprise est à l'aise avec le fait de s'appuyer sur ses TPU pour l'IA », a-t-il déclaré, ajoutant que l'entreprise utilise massivement ses TPU Ironwood de 7 génération pour alimenter Google Cloud.

Un superpod Ironwood avec 9 216 TPU Ironwood au sein d'un même domaine. (Crédit Google)

Microsoft arrive loin derrière en deuxième position en termes de capacité, avec l'équivalent d'un peu moins de 3,5 millions de H100 en capacité de calcul. Redmond s'appuie principalement sur l'infrastructure Nvidia, une petite partie de sa puissance de calcul étant fournie par AMD. Amazon occupe la troisième place, avec l’équivalent d’environ 2,5 millions de H100 ; Meta est quatrième avec 2,25 millions ; et Oracle cinquième, avec un peu plus d’un million de H100e. Selon Epoch, Meta utilise un mélange d’infrastructures Nvidia et AMD ; Amazon est alimenté à parts à peu près égales par AMD et ses propres puces AWS Trainium sachant qu'Oracle s’appuie fortement sur Nvidia.

La part des installations sur site continue de diminuer

Dans une analyse similaire, Synergy Research Group a constaté que les opérateurs hyperscale représentent désormais près de la moitié (48 %) de la capacité mondiale des centres de données, et qu'ils détiendront probablement plus des deux tiers (67 %) du marché d'ici 2031. Le cabinet indique que 60 % de la capacité hyperscale se trouve désormais dans des centres de données construits et détenus par des hyperscalers, tandis que les datacenters sur site des entreprises ne représentent plus que 32 % de la capacité totale. Cela contraste fortement avec la situation de 2018, où 56 % de la capacité des datacenters se trouvait dans des installations sur site.

Aujourd’hui, la capacité des centres de données sur site bénéficie d’un « certain regain d’intérêt » grâce aux applications d’IA de nouvelle génération et à l’infrastructure GPU, après une « période prolongée de croissance quasi nulle », selon Synergy. Cependant, le cabinet prévoit que la part des datacenters sur site dans le total continuera de baisser d’au moins deux points de pourcentage par an, pour atteindre 19 % d’ici 2031. « Dans l’ensemble, le monde se dirige à grands pas vers une situation où les opérateurs hyperscale seront responsables de la majeure partie de la capacité mondiale des centres de données », a déclaré John Dinsdale, analyste en chef chez Synergy Research Group.

Nvidia et Google en tête, mais le marché évolue

Il est clair que Nvidia reste un acteur dominant dans la pile orientée IA. L'entreprise a « su surfer sur la vague avec brio et a été récompensée à juste titre pour avoir fourni des solutions au niveau des puces qui répondent aux besoins d'un monde de plus en plus gourmand en puissance de calcul et alimenté par l'IA », a déclaré M. Levy. Cela dit, une dépendance excessive à l'égard d'un seul fournisseur de puces « expose tous les autres à un risque inutile », a-t-il noté, incitant les plateformes telles que Google, Meta, Amazon et d'autres à rechercher leurs propres solutions plus proches de chez elles. Que cela implique de développer leur propre silicium ou de diversifier leur accès à celui-ci est « presque sans importance ».

« Ce qui importe, c’est qu’ils reconnaissent les avantages du développement interne et du déploiement de capacités de calcul, ainsi que les risques inhérents au fait de laisser quelqu’un d’autre fixer les conditions de l’engagement », a déclaré M. Levy. Google, pour sa part, restera « l’un des plus grands, sinon le plus grand », consommateur de ressources de calcul, a déclaré Bill Wong, chercheur à l’Info-Tech Research Group. « Son modèle économique stimule cette demande mondiale, notamment grâce à l’utilisation généralisée de la recherche Google et de Gemini, qu’il fournit “gratuitement” », a-t-il souligné. Cependant, il est peu probable que ce même niveau d’attrait soit atteint auprès des entreprises, car Microsoft Azure et Amazon AWS sont tous deux mieux implantés dans ce secteur. L’infrastructure IA est également influencée par la tendance émergente vers une IA souveraine, où la pile IA privilégiée est davantage contrôlée localement ou sur site, a souligné M. Wong. Des pays comme le Danemark cherchent à migrer leurs charges de travail, qu’elles soient liées à l’IA ou non, hors des fournisseurs américains, en particulier Microsoft et Google.

Mais voyons ce qu’apporte l’inférence

Il est également important de noter que ces chiffres reflètent en grande partie les déploiements d’infrastructures destinés à l’entraînement à grande échelle, un domaine que Nvidia a dominé grâce à ses puces et à son framework parallèle Cuda. Mais les parts de marché devraient évoluer à mesure que l’inférence commence à mûrir, a prédit M. Kimball. Des fournisseurs comme AMD et Cerebras commenceront à gagner du terrain, car ils sont « tout aussi impressionnants » et présentent des profils de prix et de performances différents, a-t-il déclaré. Le classement ne tient pas non plus compte de certains accélérateurs personnalisés, notamment le Trainium d’AWS, le Maia de Microsoft et le MTIA de Meta. Les fournisseurs de cloud déploieront probablement leurs propres puces « dès que possible et partout où cela sera possible », car cela présentera des avantages considérables en termes de prix et de performances, a souligné M. Kimball. « Donc oui, Nvidia domine aujourd’hui, Nvidia dominera demain », a-t-il déclaré. Mais « voyons comment cela évoluera lorsque l’inférence s’imposera véritablement sur le marché ».

Il ne fait aucun doute que l’histoire de Nvidia peut prêter à confusion pour les entreprises qui utilisent l’IA dans le cloud, a observé M. Kimball. « Tout ce qu’elles lisent et voient leur dit d’utiliser Nvidia, car c’est l’architecture qui a permis de construire tous les modèles qu’elles utilisent », a-t-il déclaré. Mais l’inférence est différente, a-t-il souligné. La bonne plateforme d’inférence dépend de nombreux facteurs : différents types et tailles de modèles, modèles d’inférence, portabilité, architectures de mémoire. Et, étant donné que l’inférence se produira à tous les niveaux de l’entreprise (dans le centre de données, en périphérie, sur les terminaux), les acheteurs informatiques doivent tenir compte des piles logicielles et de la portabilité. En fin de compte, a noté M. Kimball, l’informatique d’entreprise doit considérer l’IA comme « un projet partant de zéro », plutôt que d’être limitée par ce qui existe dans les centres de données actuels. « Vous ne voulez pas être prisonnier d’une seule pile et/ou d’une seule puce », a-t-il conseillé.