Alors que 2025 se termine, il semble opportun d'examiner comment le cloud Azure de Microsoft prévoit d'aborder la seconde moitié de la décennie. Comme le veut désormais la tradition, Mark Russinovich, CTO d'Azure, a présenté sa vision de l'avenir dans le cadre de la conférence Ignite organisée du 18 au 21 novembre 2025 à San Francisco, avec deux interventions distinctes : l’une sur l'infrastructure et l’autre sur les logiciels. La première présentation a porté sur l'évolution de l'infrastructure sous-jacente d'Azure et sur la manière dont les logiciels s'adaptent au nouveau matériel. Il est fascinant de comprendre ce qui se cache derrière l'infrastructure virtuelle que les entreprises utilisent quotidiennement, car elle évolue constamment et de manière invisible.
Peu de gens se préoccupent du matériel qui se trouve sous les logiciels, et pour cause : les utilisateurs n’ont accès qu'aux API et aux machines virtuelles. Cette abstraction est à la fois une force et une faiblesse de ce cloud public. Le fournisseur met continuellement à niveau tous les aspects de ses équipements sans affecter le code, mais nous sommes obligés soit d'attendre que la plateforme cloud rende ces innovations visibles pour tous, soit déplacer le code vers l'une des quelques régions disposant en premier lieu du dernier matériel, ce qui augmente les risques liés à la réduction des options de redondance. Il est toutefois utile de comprendre ce que fait Microsoft, car les technologies mises en oeuvre auront une incidence sur les entreprises qui les utilisent et sur leur infrastructure virtuelle.
Refroidissement des CPU par microfluide
Dans sa première présentation, M. Russinovich a opté pour une approche d’Azure par couches, en commençant par l'évolution de ses centres de données. L'échelle de la plateforme est certes impressionnante : celle-ci compte désormais plus de 70 régions et plus de 400 datacenters reliés par plus de 600 000 kilomètres de fibre optique, y compris des liaisons transocéaniques et intercontinentales, les principaux centres de population faisant tous partie du même réseau. À mesure que les charges de travail évoluent, ils évoluent également, ce qui nécessite de revoir la manière dont Azure refroidit son matériel.
Les besoins en énergie et en refroidissement, en particulier avec les charges de travail liées à l'IA, obligent à repenser la conception des serveurs, en amenant le refroidissement directement sur la puce à l'aide de la microfluide. Cette technologie, déjà évoquée par Microsoft en septembre dernier pour répondre à la problématique de la dissipation de chaleur générée par les puces IA, succédera aux conceptions actuelles qui consistent à placer des plaques froides sur le dessus de la puce. La microfluidique va beaucoup plus loin, au point de nécessiter une refonte de l'emballage de la puce afin d'amener le refroidissement directement sur la matrice en silicium. En plaçant le refroidissement directement là où a lieu le traitement, il est possible d'augmenter la densité du matériel, en empilant les couches de refroidissement entre la mémoire, le traitement et les accélérateurs, le tout dans le même paquet. Les canaux, conçus à l'aide de l'apprentissage machine, sont optimisés pour les points chauds générés par les charges de travail courantes. Microsoft réalise elle-même la première génération de gravures microfluidiques, mais prévoit de collaborer avec des fournisseurs de silicium tels qu'Intel et AMD afin de pré-graver les puces avant leur livraison. Le refroidissement microfluidique n'est pas réservé aux processeurs : il peut également être utilisé sur les processeurs graphiques.
Passage au bare metal
L'un des avantages du transfert d'une grande partie de la gestion des serveurs vers du matériel physique est que Microsoft peut désormais proposer des hôtes bare metal à ses clients. Cette approche était initialement utilisée pour les serveurs de formation d'OpenAI, pour apporter un accès direct au matériel réseau et un accès direct à la mémoire à distance aux machines virtuelles. Cette dernière fonction accélère non seulement les communications entre les machines virtuelles, mais améliore aussi l'accès aux GPU, permettant ainsi de transférer plus efficacement de grandes quantités de données. Le service RDMA d'Azure ne prend pas seulement en charge les opérations en armoire ou même dans les centres de données, il offre à présent une connectivité à faible latence au sein des régions Azure. Les serveurs bare metal se traduisent par un gain de performances significatif pour les applications, mais ceux-ci ne présentent un réel intérêt que pour les grands clients qui les utilisent avec le RDMA régional pour construire leurs propres supercalculateurs. Même dans ce cas, tous les autres clients bénéficient de meilleures performances pour leurs infrastructures virtuelles. Cela nécessite de supprimer la surcharge associée aux machines virtuelles et aux conteneurs. Comme l'a souligné M. Russinovich lors de sessions précédentes, l'avenir d'Azure se situe dans l’informatique sans serveur, c’est-à-dire dans l’hébergement et l’exécution de conteneurs dans des environnements PaaS.
Amélioration d’Azure Boost
Au-delà du silicium, Microsoft fait évoluer les serveurs Azure Open Hardware avec une dernière version de ses accélérateurs Azure Boost. Désormais installé sur plus de 25 % de son parc de serveurs et en standard sur tous ses équipements les plus récents, Azure Boost permet de décharger les charges de travail propres à Azure sur du matériel dédié afin que les instances hôtes et les applications de la plateforme aient accès à autant de performances serveur que possible. Baptisée Overlake, la dernière série d'accélérateurs Azure Boost apporte une nette amélioration des performances sur le stockage avec un débit entre 20 Gbps (distant) et 36 Gbps (connexion directe) et 6,6 millions d'IOPS, contre 12,5 Gbps et 650 000 IOPS en 2023, mais aussi réseau (400 Gbps). Sous le capot se trouve un système sur puce (SoC) personnalisé combinant des cœurs Arm et des circuits imprimés programmables (Field-programmable Gate Array, FPGA) exécutant le même Azure Linux que les conteneurs Kubernetes. Azure Boost intègre un chiffrement matériel supplémentaire pour garantir la compatibilité avec les capacités de confidential computing d'Azure, en conservant les données chiffrées entre les serveurs et les cartes Azure Boost.
Accélération et mise à l'échelle du stockage
Le volume considérable de données d'entraînement utilisées par les charges de travail IA a conduit Microsoft à repenser la manière dont il provisionne le stockage pour Azure. Les modèles vidéo nécessitent des centaines de pétaoctets de données d'images, des téraoctets de bande passante et plusieurs milliers d'IOPS. Cela représente une demande importante pour un matériel de stockage déjà très sollicité. Cela a conduit le fournisseur à développer un compte de stockage évolutif, qui peut être considéré comme un compte virtuel s'ajoutant au nombre de comptes de stockage standard nécessaires pour fournir la quantité de stockage requise.
Il n'est pas nécessaire de changer le matériel, et le stockage virtuel peut englober autant de comptes de stockage que nécessaire pour évoluer autant que possible. Le stockage étant partagé, vous pouvez obtenir de très bonnes performances, car les données sont récupérées en parallèle à partir de chaque compte de stockage. La démonstration de Russinovich lors de la conférence Ignite a montré que cela fonctionnait avec 1,5 pétaoctet de données dans 480 nœuds, avec des écritures à 22 térabits par seconde et des lectures à partir de 695 nœuds à 50 térabits par seconde.
Préparer l'infrastructure serverless de demain
Même si bon nombre de ces avancées sont spécialisées et axées sur les besoins de la formation de l’IA, il vaut peut-être mieux considérer ces projets colossaux comme la F1 de l’IT, à l'origine d'innovations qui auront un impact sur tous, peut-être pas demain, mais certainement dans les cinq prochaines années. Le pari audacieux de Microsoft en matière de serverless nécessite bon nombre de ces technologies pour offrir à ses conteneurs managés les performances dont ils ont besoin, en proposant une autre manière de fournir les infrastructures virtuelles et de construire la prochaine génération de centres de données. Ces investissements importants dans l'IA doivent également prendre en charge toutes sortes d'applications, depuis l'Internet des objets orienté évènements jusqu’au Kubernetes distribué et évolutif, tout en étant prêts pour des plateformes et des services qui restent encore à concevoir.
Des fonctionnalités telles que la virtualisation directe et le déchargement réseau semblent être les gains les plus rapides pour le plus grand nombre de clients Azure. Des machines virtuelles et des conteneurs plus rapides et plus portables contribueront à rendre les applications plus évolutives et plus résilientes. Le déchargement des réseaux définis par logiciel vers des serveurs dédiés peut offrir de nouveaux moyens de sécuriser les infrastructures virtuelles et de protéger les précieuses données des entreprises. Ce qui est peut-être le plus intéressant dans la présentation de M. Russinovich sur l'infrastructure, c'est que ces technologies ne sont plus au stade de la recherche en laboratoire. Elles sont actuellement installées dans de nouveaux centres de données et font partie des mises à niveau prévues pour la plateforme Azure existante. Nul doute que dans cette optique, il sera intéressant de voir quelles nouvelles avancées Microsoft dévoilera l'année prochaine.

Commentaire