Après des mois de spéculation sur le développement possible par Microsoft de puces maison, l'entreprise a dévoilé hier, lors de sa conférence annuelle Ignite organisée du 14 au 17 novembre à Seattle, deux composants personnalisés. Baptisées Maia et Cobalt, ces puces ciblent respectivement l'IA générative et les workload cloud. Selon Microsoft, l’accélérateur Maia 100 épaulera la formation des modèles d’IA notamment ceux d’OpenAI pour les rendre plus performants à un coût moindre.

Une architecture ARM pour la puce Cobalt 100

La puce Cobalt 100 est dotée de 128 coeurs et a été conçue sur l'architecture ARM Neoverse CSS. Microsoft l'a testé pour les workload Teams et SQl Server. Selon Dylan Patel le choix de cette architecture « a pour but de rendre l'infrastructure de Microsoft plus économe en énergie par rapport aux CPU AMD et Intel ».

Avec cette puce, la firme de Redmond rejoint par ailleurs la concurrence où AWS a lancé depuis quelques années ses instances Graviton (sur architecture ARM aussi) et les TPU (Tensor Processing Unit) de Google Cloud. Le chiffre 100 laisse supposer qu'il s'agit de la première édition et que la famille 200 est déjà en préparation (suivant le cycle de Nvidia avec les H100 et H200). 

Les deux composants présentés par Microsoft dont Cobalt 100. (Crédit Photo : Microsoft)

Des racks sur-mesure pour l’accélérateur Maia 100

L’autre annonce concerne l’accélérateur Maia 100 pour l’IA, gravé en 5 nm par TSMC et comprenant 105 milliards de transistors. Il s’agit de la concrétisation du projet Athena, dont nos confrères The Information s’étaient fait l’écho en avril dernier. Plusieurs centaines d'employés de Microsoft étaient mobilisés pour cette mission avec un investissement consacré de 2 Md$ et des rumeurs voyaient un partenariat avec AMD. Pendant la conférence, la société a expliqué avoir créé un design spécifique pour ses rack de datacenters afin d’y loger la puce Maia 100. « Ils sont plus larges que les racks existants pour laisser plus d’espaces pour les câbles d’alimentation et de réseau », explique l’entreprise.

Elle a dû par ailleurs élaborer une solution de refroidissement liquide distincte pour gérer la température des puces très sollicitées par les workload d’IA et d’IA générative. Microsoft a donc développé un « sidekick » qui fonctionne comme un radiateur de voiture. « Le liquide froid s'écoule du sidekick vers des plaques froides fixées à la surface des puces Maia 100. Chaque plaque comporte des canaux dans lesquels le liquide circule pour absorber et transporter la chaleur. Ce liquide est acheminé vers le sidekick, qui récupère la chaleur du liquide et le renvoie vers le rack pour absorber davantage de chaleur, et ainsi de suite », a expliqué un porte-parole de Microsoft.

Microsoft a été contraint de créer un rack et un système de refroidissement liquide spécifique pour l'accélérateur Maia. (Crédit Photo : Microsoft)

Une équation économique pour Microsoft

Selon les analystes, c'est l'économie, et non la pénurie de puces, qui suscite le plus l’intérêt des grands fournisseurs de services cloud, tels que Microsoft, AWS et Google, pour les puces personnalisées. « D'un point de vue économique, la décision de développer des composants personnalisé permet à Microsoft d'intégrer ses offres et de continuer à optimiser les puces pour ses services tout en augmentant sa marge et en ayant un meilleur contrôle des coûts et de la disponibilité », a déclaré Daniel Newman, CEO de The Futurum Group. Selon lui, ce sont ces mêmes raisons qui ont poussé AWS à développer ses propres puces personnalisées Inferentia, associées à l'accélérateur de machine learning Trainium. C’est aussi le cas de Google qui a développé des itérations de ses puces Tensor. « Le CPU Cobalt permet à Microsoft d'offrir du silicium optimisé pour le cloud et de proposer des instances basées sur Arm aux clients Azure, tout comme AWS le fait avec EC2 », a déclaré le dirigeant.

En outre, les analystes pensent qu’avec ses nouvelles puces, Microsoft pourra créer ses propres frameworks logiciels d'accélération de l'IA à mesure que la demande sur cette technologie s'accroît. « Le développement d’accélérateurs pour les charges de travail d'IA peut améliorer les performances tout en utilisant moins d'énergie que d'autres puces, dont les solutions à base de GPU. Les fournisseurs et les entreprises qui tentent d'atteindre les objectifs de durabilité et de bénéficier du potentiel de l'IA chercheront toujours à accroître les performances tout en étant économe en énergie », glisse Daniel Newman.

Une concurrence sérieuse pour Nvidia, AMD et Intel

L’accélérateur Maia 100  de Microsoft n’est pas assez puissante pour remplacer les solutions GPU de Nvidia dans le développement de LLM. Mais il est bien adapté pour l'inférence utilisée dans les charges de travail d'IA opérationnelles. « De plus, à mesure de leur déploiement, l'entreprise aura de moins en moins besoin de composants de Nvidia, AMD et Intel », ont déclaré les analystes, ajoutant que, demain, les puces personnalisées d'AWS et de Google concurrenceront aussi les puces des grands fournisseurs. « Intel, Nvidia et AMD constatent tous la montée en puissance des instances basées sur ARM et devraient les considérer comme une menace concurrentielle dans certains cas », a déclaré Daniel Newman. « La migration des charges de travail des puces x86 vers les puces ARM n'est pas encore tout à fait possible, notamment parce que les logiciels sont souvent écrits pour des architectures de puces spécifiques. Mais elle est devenue moins problématique à mesure que les développeurs continuent à faire des progrès pour exécuter de plus en plus de workload sur ARM », ajoute-t-il.

Selon les analystes, étant donné que les fournisseurs de services cloud utilisent des composants personnalisés à différents niveaux, le marché des datacenters connaîtra un « changement plus significatif » en faveur d'ARM dans les années à venir, même si les puces x86 dominent actuellement le marché avec une marge substantielle. Parmi tous les fournisseurs de semi-conducteurs, Daniel Newan pense que Nvidia sera le moins affecté, en tout cas, à court terme, car la demande pour ses accélérateurs GPU devrait rester élevée. Cependant, dans certains cas ou cas d’usage, les puces personnalisées des hyperscalers pourraient entretenir un rapport symbiotique avec Nvidia, en particulier les puces Grace Hopper, destinées au développement et à l'entraînement de grands modèles de langage. Le déploiement des puces personnalisées dans les datacenters de Microsoft devrait démarrer au début de l'année prochaine. Microsoft ne prévoyant pas de vendre ses puces à des tiers, elle ne sera pas concernée par les restrictions imposées par l'administration du président américain Joe Biden sur les exportations de technologies vers la Chine.