Nvidia mise sur le photonique pour accélérer la formation IA

En investissant 4 milliards de dollars dans les spécialistes en solutions d'interconnexion optique Lumentum et Coherent, Nvidia se positionne comme un fournisseur compétitif d'infrastructures pour améliorer la formation IA.

Nvidia a annoncé en début de semaine des partenariats stratégiques avec Lumentum Holdings et Coherent, destinés à accélérer le développement de technologies optiques avancées utilisées dans les infrastructures des centres de données IA. Dans le cadre de ces accords, Nvidia investira 2 milliards de dollars dans chacune de ces entreprises pour soutenir leurs activités de recherche et développement et leurs opérations, et de développer ou d'étendre leurs capacités de production aux États-Unis. Le fournisseur a souligné que les technologies d'interconnexion optique et de package d'intégration sont « fondamentales pour la prochaine phase de l'infrastructure IA, car elles permettent une connectivité à très haut débit et à faible consommation d'énergie dans les usines IA ». Chacun de ces accords, non exclusifs, comprend ce que Nvidia a décrit comme « un engagement d'achat de plusieurs milliards de dollars et des droits d'accès futurs à des composants laser avancés », ainsi qu'un investissement de 2 milliards de dollars dans chaque entreprise pour soutenir la R&D, les capacités futures et les opérations à mesure que les entreprises développent leurs capacités de production aux États-Unis.

Brian Jackson, directeur principal de recherche chez Info-Tech Research Group, a déclaré qu'avec ces deux investissements, le fournisseur pose les bases de son avenir en tant que fournisseur compétitif d'infrastructures de formation en IA. « Alors que Nvidia a dominé ce secteur ces dernières années grâce à ses derniers processeurs graphiques qui constituent la colonne vertébrale de la formation des modèles d'IA de pointe, au cours des 12 derniers mois, nous avons vu davantage d'accords signés par de grands développeurs d'IA avec des fournisseurs de silicium spécialisés tels qu'Amazon et Google. » Il a souligné également que « [cela] indique que les alternatives aux GPU ne sont pas seulement des moyens plus économes en énergie pour former l'IA, mais qu'elles offrent également des performances suffisantes pour satisfaire les meilleurs développeurs. La société veut ainsi prendre une longueur d'avance sur la concurrence grâce à sa propre avancée dans la fabrication de puces de prochaine génération. » M. Jackson a ajouté : « Il semble également que le pari sera fait sur l'optique de transfert de photons. Les ordinateurs basés sur la photonique sont en cours de développement sous forme de prototypes depuis plus d'une décennie et cherchent à pallier les limites physiques du cuivre en tant que conducteur électrique. » En s'appuyant sur le transfert de la lumière à travers le verre, a-t-il déclaré, « cette approche architecturale est plus économe en énergie et promet d'être beaucoup plus rapide que les puces actuelles. Si Nvidia parvient à fabriquer en série une GPU de nouvelle génération qui intègre le photonique directement dans son silicium, alors elle pourra résoudre deux problèmes majeurs pour les développeurs d'IA : la consommation d'énergie et la vitesse. »

Casser les goulots d'étranglement des infrastructures IA

Sanchit Vir Gogia, analyste en chef chez Greyhound Research, a déclaré que ce double investissement de 2 milliards de dollars « envoie un signal concernant les goulots d'étranglement de l'infrastructure IA : c'est le moment où l'industrie admet discrètement que la mise à l'échelle de l'IA n'est plus principalement une question de puces. C'est une question de communication. » Au cours des dernières années, a-t-il déclaré, « la contrainte visible était simple. Les entreprises ne pouvaient pas obtenir suffisamment de GPU. Les hyperscalers réservaient les allocations. Les fournisseurs rationnaient l'approvisionnement. C'était le premier point d'étranglement. Mais une fois que les accélérateurs sont déployés à grande échelle, le goulot d'étranglement se déplace. Il ne disparaît pas. » M. Gogia a ajouté que dans les clusters d'IA actuels, « chaque accélérateur dépend de dizaines de liaisons à haut débit pour communiquer avec ses voisins. Multipliez cela à travers le rack et vous vous retrouvez avec des milliers d'interconnexions fonctionnant en continu. Chacune de ces liaisons consomme de l'énergie. Chacune introduit des considérations de latence et d'intégrité du signal. Chacune comporte un risque de défaillance. » Ce que Nvidia signale, c'est que le prochain goulot d'étranglement est la structure elle-même, a-t-il souligné. « Vous pouvez ajouter plus de GPU, mais si la couche réseau ne peut pas évoluer proportionnellement, l'utilisation diminue et la rentabilité se détériore », a-t-il déclaré. « L'entreprise remonte la chaîne pour s'assurer que les artères de l'infrastructure IA ne deviennent pas le nouveau point de pénurie. Il ne s'agit pas d'une stratégie marketing. C'est une reconnaissance structurelle du fait que le mur du réseau est bien réel. »

M. Gogia a souligné que l'accent mis sur la fabrication aux Etats-Unis n'est pas un simple discours cosmétique. Il s'agit d'une stratégie d'isolation. « Les chaînes d'approvisionnement en semi-conducteurs sont désormais étroitement liées à la politique nationale », a-t-il observé. « Les contrôles à l'exportation, la dépendance vis-à-vis des terres rares et les subventions industrielles ont remodelé la manière dont les composants de pointe circulent à l'échelle mondiale. La photonique fait de plus en plus partie de cette infrastructure stratégique. » En soutenant l'expansion de la fabrication aux États-Unis, Nvidia « réduit son exposition géopolitique et s'aligne sur les priorités industrielles nationales. Ce positionnement pourrait influencer les décisions d'allocation en cas de tension sur l'approvisionnement », a-t-il déclaré. Et pour les entreprises opérant en dehors des États-Unis, « cela introduit une considération secondaire », a-t-il ajouté. « En cas de contraintes de capacité, les marchés stratégiquement alignés pourraient bénéficier d'un traitement préférentiel. La stratégie d'approvisionnement doit donc tenir compte de la géographie et de l'alignement des politiques, en plus du prix et des performances. »

Réfléchir aux impacts de l'IA sur la performance réseau

Quel que soit leur emplacement, les DSI et les responsables chargés des réseaux qui planifient le déploiement d'usines IA doivent désormais cesser de considérer la structure optique comme un simple détail réseau. « Les hypothèses budgétaires doivent tenir compte de la croissance de la densité d'interconnexion, de l'efficacité énergétique prévue par bit, des modèles de redondance et du risque de concentration des fournisseurs », a-t-il déclaré. « La transparence de la feuille de route optique doit faire partie intégrante de la diligence raisonnable des fournisseurs. » « [Les contrats] doivent aborder les droits d'allocation des approvisionnements et les voies de mise à niveau », a-t-il souligné. « Les modèles de retour sur investissement de l'IA doivent inclure les impacts de l'utilisation des GPU liés aux performances du réseau. Les rapports sur la durabilité doivent tenir compte de la consommation électrique des interconnexions, et pas seulement de l'efficacité des serveurs. » En outre, a-t-il ajouté, « la cartographie des domaines de défaillance doit refléter le rayon d'action de l'intégration optique, et pas seulement la défaillance des nœuds de serveurs. La gouvernance de l'infrastructure IA doit évoluer d'une réflexion centrée sur les serveurs vers une planification centrée sur les systèmes. La couche de structure doit désormais figurer à l'ordre du jour du conseil d'administration. »