Si, à l’origine, les unités de traitement graphique (GPU) modernes servaient essentiellement à accélérer les jeux vidéo sous Windows, au cours des vingt dernières années, elles ont évolué en processeur de serveur d'entreprise pour le calcul haute performance et les applications d'intelligence artificielle. Aujourd'hui, les GPU fournissent la performance nécessaire au travail des supercalculateurs, à l’entraînement et l'inférence de l'IA, à la recherche sur les médicaments, à la modélisation financière et à l'imagerie médicale. Les GPU servent également à exécuter des tâches plus courantes dans des scénarios où les CPU ne sont tout simplement pas assez rapides, comme les bases de données relationnelles. A mesure que la demande de GPU augmente, la concurrence entre fournisseurs de GPU pour serveurs s'intensifie, et ils ne sont que trois dans cette course : Nvidia, AMD et (bientôt) Intel. Intel, qui a déjà essayé sans succès et à deux reprises de proposer une alternative aux GPU de Nvidia et d’AMD, refait une nouvelle tentative.

L'importance des GPU dans les datacenters

Pour ces trois fournisseurs, la demande croissante de GPU dans les datacenters représente une vraie opportunité. En effet, les GPU sont plus à même que les CPU à traiter un grand nombre des calculs requis par l'IA et l'apprentissage machine dans les datacenters d'entreprise et les réseaux hyperscalers. Non pas que les CPU ne soient pas capables d’effectuer ces tâches, mais ils ont besoin de plus de temps. Cependant, parce que les GPU sont faits pour résoudre des problèmes mathématiques complexes en parallèle en les divisant en tâches distinctes sur lesquelles ils travaillent simultanément, ils les résolvent plus rapidement. Pour cela, les GPU disposent de plusieurs cœurs, et en bien plus grand nombre que ne peut en contenir un CPU généraliste. Par exemple, les CPU pour serveurs Xeon d'Intel peuvent comporter jusqu'à 28 cœurs, et les CPU pour serveurs Epyc d'AMD peuvent en accueillir jusqu'à 64. En revanche, la génération actuelle de GPU de Nvidia, Ampere, compte 6 912 cœurs fonctionnant tous en parallèle pour effectuer une tâche unique de traitement mathématique, en particulier les calculs à virgule flottante. Les performances des GPU sont mesurées en fonction du nombre d'opérations mathématiques à virgule flottante qu'ils peuvent effectuer par seconde ou FLOPS. Ce nombre précise parfois le format standardisé à virgule flottante utilisé au moment de la mesure, par exemple FP64. Alors, à quoi peut-on s’attendre cette année dans le domaine des GPU pour serveurs ? A pas mal de choses, en fait. Nvidia, AMD et Intel ont joué cartes sur table quant à leurs projets immédiats, et il semble que la concurrence sera rude. Voici un aperçu de ce que nous réservent les trois rivaux.

Nvidia à la pointe des accélérateurs

Nvidia a arrêté sa feuille de route GPU pour l'année au mois de mars, avec l'annonce de son architecture GPU Hopper, affirmant que, en fonction de son utilisation, elle pouvait fournir des performances trois à six fois supérieures à celles de son architecture précédente, Ampere, qui pèse 9,7 TFLOPS de FP64. Nvidia affirme que le GPU Hopper H100 atteindra 60 TFLOPS de performance FP64. Comme les GPU précédents, le GPU Hopper H100 peut fonctionner comme le ferait un processeur autonome sur une carte PCI Express intégrée dans un serveur. Mais Nvidia l'associera également à un CPU sur un processeur Arm personnalisé appelé Grace, qu'elle a développé, et qui devrait être disponible en 2023. Pour Hopper, Nvidia ne s'est pas contenté d'améliorer le processeur GPU. Elle a également modifié la mémoire LPDDR (Low-Power Double Data Rate) 5, normalement utilisée dans les smartphones, pour créer la LPDDR5X. Cette mémoire prend en charge le code de correction d'erreurs (Error-Correction Code, ECC) et offre une bande passante deux fois supérieure à celle de la mémoire DDR5 traditionnelle, avec un débit de 1 To/s.

En même temps que le GPU Hopper, Nvidia a annoncé NVLink 4, la dernière version de son interconnexion inter-GPU. NVLink 4C2C permet aux GPU Hopper de communiquer directement entre eux sur une bande passante totale maximale de 900 Go, soit sept fois plus rapidement que s'ils étaient connectés via un bus PCIe Gen5. « Les produits pour datacenters comportent trois composants, et ils doivent tous avancer au même rythme. Il s'agit de la mémoire, du processeur et des communications », explique Jon Peddie, président de Jon Peddie Research. « Et c'est ce que fait Nvidia avec Hopper. Ces trois technologies n'évoluent pas de manière synchronisée, mais Nvidia a réussi à le faire », ajoute-t-il. Nvidia prévoit de livrer le GPU Hopper à partir du troisième trimestre de 2022. Parmi les partenaires OEM du projet, on trouve Atos, BOXX Technologies, Cisco, Dell Technologies, Fujitsu, Gigabyte, H3C, Hewlett Packard Enterprise, Inspur, Lenovo, Nettrix et Supermicro. A cause des pressions permanentes en approvisionnement auquel est soumis son fabricant de puces TSMC, Nvidia a évoqué une éventuelle collaboration avec la fonderie d'Intel, tout en précisant qu'un tel accord ne serait pas conclu avant plusieurs années.

AMD en embuscade

AMD a le vent en poupe. Ses ventes augmentent d'un trimestre à l'autre, sa part de marché des CPU x86 progresse et en février, l’entreprise a finalisé l'acquisition de Xilinx et de ses réseaux logiques programmables (FPGA), de ses systèmes sur puce adaptatifs (SoC), de ses moteurs d'IA et de son expertise logicielle. AMD devrait lancer son processeur Zen 4 d'ici à la fin de l'année 2022. Les nouveaux GPU de jeu d'AMD, basés sur son architecture RDNA 3, devraient également sortir cette année. AMD est resté très discret sur les spécifications du RDNA 3, mais des blogueurs amateurs de jeux ont fait circuler des rumeurs non confirmées faisant état d'un gain de performance de 50 à 60 % par rapport au RDNA 2. Entre temps, AMD a commencé à livrer la gamme d'accélérateurs GPU Instinct MI250 pour l’IT d'entreprise, nettement plus rapide que la série précédente MI100. Le bus mémoire a doublé, passant de 4096 à 8192 bits, la bande passante mémoire a plus que doublé, passant de 1,23 à 3,2 To/s, et les performances ont plus que quadruplé, passant de 11,5 TFLOPS de performance FP64 à 47,9 TFLOPS. C'est moins rapide que le Hopper 60 TFLOPS d'AMD, mais cela reste compétitif.

Daniel Newman, analyste principal chez Futurum Research, a déclaré que les parts de marché qu’AMD pourra conquérir dépendront de la croissance du marché de l'IA. Il pense aussi que le succès d'AMD sur le marché des CPU pourrait stimuler ses ventes de GPU. « Au cours des cinq, sept dernières années, AMD a réussi à susciter une fidélité assez forte envers ses produits, et celle-ci peut éventuellement se déplacer vers les GPU », affirme-t-il. « La question est de savoir si AMD peut augmenter sa part de marché AI/HPC de manière significative. » L’analyste de Futurum Research pense que c’est possible, car l'entreprise s’est montrée très efficace pour identifier des opportunités de marché et gérer sa chaîne d'approvisionnement afin d'atteindre ses objectifs. Et sous la direction de sa CEO Lisa Su, « il me semble très difficile à ce stade d'exclure AMD de n'importe quel domaine où ils ont décidé d'être en concurrence », déclare-t-il encore. 

Jonathan Cassell, analyste principal pour l'informatique avancée, l'IA et l’IoT chez Omdia, souligne que le succès des processeurs pour serveurs Epyc d’AMD pourrait créer des opportunités au processeur Instinct. « Avec le temps, je pense qu’AMD peut tirer parti de son succès dans les microprocesseurs pour datacenters et s’en servir comme tremplin pour attirer les entreprises vers Instinct. Je pense qu’AMD va essayer de tirer parti de ses relations avec les clients pour étendre sa présence dans le datacenter », annonce-t-il. Instinct est disponible depuis le premier trimestre 2022. Jusqu'à présent, son cas d’usage le plus médiatisé concerne le superordinateur de l’Oak Ridge National Labs, qui concentre beaucoup de puissance dans un espace très réduit. Mais les laboratoires construisent également un supercalculateur Exascale appelé Frontier, entièrement basé sur AMD, dont le déploiement est prévu plus tard cette année. ASUS, ATOS, Dell Technologies, Gigabyte, Hewlett Packard Enterprise, Lenovo, Penguin Computing et Supermicro font partie des partenaires OEM qui livrent des composants pour Instinct.

Intel arrive sur le marché

Intel a eu longtemps du mal à fabriquer autre chose que des GPU intégrés de base pour ses CPU de bureau. Pour les ordinateurs de bureau, l’entreprise dispose de la nouvelle gamme Intel Xe, avec un pendant pour serveurs appelé Intel Server GPU. Aujourd'hui, l’entreprise annonce qu'elle fera son entrée dans les GPU pour datacenters cette année avec un processeur - nom de code Ponte Vecchio - qui fournirait 45 TFLOPS de performance FP64, soit presque autant que le MI250 d'AMD et 25% de moins que le Hopper de Nvidia. « L’arrivée d’Intel sur ce marché peut vraiment perturber l'environnement », prévient Jon Peddie, le président de Jon Peddie Research. « D'après ce que nous a dit Intel - confirmé par des rumeurs et d'autres fuites -, son GPU est très évolutif ». La sortie de Ponte Vecchio est prévue plus tard cette année. Daniel Newman, l’analyste principal de Futurum Research, a également entendu de bonnes appréciations sur Ponte Vecchio, mais selon lui, la véritable opportunité pour Intel réside dans sa stratégie logicielle oneAPI. 

Cette plateforme de développement logiciel unifiée, développée par Intel, permet de choisir le silicium le plus approprié - x86, GPU, FPGA, processeurs d'intelligence artificielle - lors de la compilation des applications, au lieu de forcer le développeur à choisir un type de silicium pour lequel effectuer le codage. Le logiciel fournit également un certain nombre de bibliothèques API pour des fonctions comme le traitement vidéo, les communications, l'analyse et les réseaux neuronaux. Avec cette abstraction, le développeur n’a plus à se préoccuper de savoir quel est le meilleur processeur à cibler, ni à se demander avec quels outils, bibliothèques et langages de programmation il doit travailler. Ainsi, au lieu de coder pour un processeur spécifique dans un langage spécifique, les développeurs peuvent se concentrer sur la logique métier et écrire en Data Parallel C++ (DPC++), une variante open source du C++ conçue spécifiquement pour le parallélisme des données et la programmation hétérogène. 

Un autre élément distingue aussi Intel de Nvidia et d'AMD : c’est la fabrication des puces. Alors que ces derniers font fabriquer leurs puces par le taïwanais TSMC, Intel fabrique un grand nombre de ses propres puces aux Etats-Unis, et dispose d'autres usines en Irlande, en Malaisie et en Israël. Et l’entreprise prévoit d’en construire plusieurs autres aux Etats-Unis. « Cela lui confère certains avantages », estime M. Cassell. « D'une certaine manière, le contrôle qu'elle exerce sur sa propre fabrication lui donne plus de maîtrise sur son destin. Je pense que ce sont des atouts pour l’entreprise », dit-il. « En fin de compte, la concurrence entre Nvidia, AMD et Intel pourrait se résumer à une course aux logiciels », affirme Daniel Newman. « Si vous interrogez les meilleurs ingénieurs de Nvidia, ils diront que Nvidia n’est pas une entreprise de puces, mais un éditeur de logiciels. Je pense que jusqu'à présent, Intel n'avait pas envisagé l'IA comme un logiciel, mais si Intel parvient à mettre au point oneAPI, elle disposera d’une réelle opportunité », conclut-il.