Pour l'IA agentique, Google Cloud lance les TPU 8t et 8i

A l'occasion de son évènement .Next, Google Cloud a présenté non pas une mais deux versions de son TPU pour son infrastructure IA. Le 8t adresse les charges de travail d'entraînement nécessitant des performances en calcul et en réseau. De son côté, le 8i gère les tâches d'inférence en améliorant la bande passante mémoire.

Près de 40 000 personnes se sont données rendez-vous à Las Vegas où Google Cloud organise son évènement annuel .Next. Cette édition a été placée sous le signe de l’IA agentique et le fournisseur a fait plusieurs annonces dans ce sens. Sur la partie infrastructure, il a dévoilé la dernière génération de ses TPU (Tensor Processing Unit) qui connaissent un fort intérêt comme le montre une étude d’Epoch AI. Plus de 60 % de la puissance de calcul mondiale dédiée à l'IA est détenue par des hyperscalers américains, et Google en détient environ un quart. Il s’agit d’une alternative importante à Nvidia.

Les TPU 8t orientés entraînement

Dans ce contexte, Google Cloud innove cette année en ne lançant pas un mais deux TPU de 8^ème génération, qui succèdent à Ironwood commercialisé en 2025. Dans un blog, la firme explique les raisons de cette dichotomie : « Avec l'essor des agents d'IA, nous avons déterminé que la communauté bénéficierait de puces spécialisées individuellement pour répondre aux besoins d'entraînement et de déploiement ». Celles qui adressent les charges de travail d’entraînement sont les TPU 8t et seront accessibles en pods comprenant jusqu’à 9 600 accélérateurs.

Dans cette configuration, Google Cloud revendique une capacité de calcul de 121 exaflops. Chaque puce dispose de 216 Go de mémoire HBM offrant une bande passante de 6,5 To/s et de 128 Mo de SRAM. Le transfert de données entre les puces est aussi amélioré avec la technologie ICI (inter-chip interconnect) à 19,2 Tbit/s (contre 1,2 Tbit/s pour Ironwood). Les TPU sont livrés avec CAE (collectives acceleration engine) une évolution de SparseCore, un accélérateur spécialisé dans le traitement des paquets de données volumineux et Pathway, un runtime ML développé par Deepmind proposant un calcul distribué entre plusieurs puces. En parallèle, Google révise son architecture réseau pour datacenter avec Virgo Networks, qui vient optimiser l’interconnexion des pods et réduire la latence. Virgo Networks est une architecture réseau fabric pour datacenter conçu spécifiquement pour les charges de travail IA à très grande échelle en mode "campus-as-a-computer" : transformer l'infrastructure distribuée d'un campus entier en un seul superordinateur unifié. Il est ainsi capable d’interconnecter 134 000 puces avec une bande passante de 47 pbit/s au sein d’un seul datacenter. A noter également que Google a développé un système de stockage baptisée Managed Lustre capable de fournir 10 To/s de données agrégées directement dans la mémoire de ses accélérateurs.

Des TPU 8i optimisés pour l’inférence

L’autre TPU dévoilé est le 8i dédié à l’inférence. Pour rappel, l’inférence est l’opération dans laquelle un modèle d'IA fournit une réponse à partir de données à distinguer de l'étape d'entraînement d'un modèle, très gourmande en calcul. Par rapport au 8t, les puces 8i mettent l’accent sur la bande passante mémoire qui est considéré comme le goulet d’étranglement. Disponibles en pods pouvant aller jusqu’à 1 152 puces, elles associent 288 Go de mémoire HBM (avec une bande passante de 8,6 To/s) à 384 Mo de SRAM.

Pour connecter davantage de puces et les intégrer dans un système où elles peuvent toutes communiquer entre elles, Google a développé une topologie réseau personnalisée sur puce appelée Boardfly ICI (Inter-Chip Interconnect) pour interconnecter massivement ses TPU (Tensor Processing Units) de 8e génération. Capable d'interconnecter jusqu'à 1 152 puces, elle réduit la latence en diminuant le nombre de sauts nécessaires requis pour la communication entre toutes les puces. Il s’agit d’une condition essentielle pour les modèles d’inférence et de raisonnement multi-experts.

Les deux accélérateurs TPU 8 seront disponibles plus tard cette année sur Google Cloud Platform, soit sous forme d'instances, soit au sein de la plateforme Hypercomputer AI qui regroupe l'ensemble des ressources réseau, de stockage, de calcul et logicielles nécessaires au déploiement et à l'entraînement de modèles de langage à grande échelle.