A l’occasion de son évènement Next 2024 à Las Vegas, Google Cloud a présenté plusieurs évolutions de son infrastructure et en particulier sur les processeurs. Le fournisseur rejoint AWS et Microsoft en levant le voile sur sa première puce ARM. Baptisée Axion, elle a été élaborée à partir du design Neoverse 2 du britannique. Face à la concurrence des puces Graviton (AWS) et Cobalt (Microsoft), Google Cloud affirme que ses instances Axion offrent des performances globales 30 % supérieures. Par rapport aux instances comparables avec des puces x86, le gain est jusqu’à 50% sur les performances et 60% d’efficacité énergétique.

En interne, Google utilise déjà Axion pour déployer des services comme BigTable, Spanner, BigQuery, Blobstore, Pub/Sub, Google Earth Engine et la plateforme YouTube Ads. Pour autant, la société n’a donné que peu de détails sur l’aspect technique. « Axion est construit sur l'architecture et le jeu d'instructions standard Armv9 et il est soutenu par le système de micro-contrôleur Titanium », souligne un communiqué. GCP souligne avoir travaillé avec ARM pour s’assurer « que les systèmes d'exploitation et les logiciels courants peuvent fonctionner de manière transparente sur les serveurs et les machines virtuelles basés sur ARM ». En termes de calendrier, le fournisseur reste évasif, « « nous prévoyons de déployer et de mettre à l'échelle ces services et d'autres encore sur Axion bientôt ». Et d’ajouter que les clients trouveront Axion dans les services Google Compute Engine, Google Kubernetes Engine, Dataproc, Dataflow, Cloud Batch, etc.

TPU 5vp et les autres instances

En complément de cette annonce, Thomas Kurian, CEO de Google Cloud, a également annoncé la disponibilité générale des puces TPU v5p pour les workflows IA. Annoncée en décembre dernier, elles offrent des gains de performance importants, avec deux fois plus d'opérations en virgule flottante par seconde et trois fois plus de bande passante mémoire (HBM) par rapport aux accélérateurs TPU v4. Elles succèdent à l’évolution précédente TPU v5e lancée en août dernier à la conférence Next 2023. Dans chaque pod TPU v5p, Google Cloud intègre 8 960 puces. Une puissance capable d’entraîner les modèles d’IA plus rapidement.

Toujours sur l’IA, Google Cloud a lancé l’instance A3 Mega qui repose sur des accélérateurs Nvidia H100. Disponible le mois prochain, elle offre deux fois plus de bande passante que les instances A3 précédentes. Par ailleurs, la société a présenté l’instance Confidential A3 pour adresser le marché du confidential computing, architecture améliorant la sécurité et la confidentialité, axée sur la protection des données en cours d'utilisation. Enfin, les récentes annonces de Nvidia autour de Blackwell trouve un écho chez Google Cloud qui construit deux plateformes reposant sur HGX B200 et GB200 NVL72. Elles ne seront pas disponibles avant 2025 en adressant à la fois les workload IA, mais aussi l’inférence en temps réel des LLM.