Le contrat pluriannuel de 6 Md$ conclu entre Meta et Corning pour la fourniture de fibre optique semble entériner le fait que les contraintes liées à l'infrastructure IA dépassent désormais le seul cadre du calcul et concernent aussi le réseau physique. L'accord prévoit la livraison de fibre optique, de câblage et de connectivité afin « d'accélérer la construction des centres de données les plus avancés des États-Unis pour soutenir les applications, les technologies et les ambitions IA de Meta », ont annoncé les deux entreprises dans un communiqué. Alors que les hyperscalers se précipitent pour construire des clusters d'IA toujours plus grands, les avertissements d’entreprises comme Microsoft sur un « mur réseau » imminent déplacent l'attention vers la capacité des réseaux en particulier la fibre optique, comme facteur limitant la croissance des centres de données IA.
Jusqu'à présent, le débat sur l'infrastructure IA s'est principalement concentré sur l'accès aux GPU et à l'alimentation électrique. Mais le trafic est-ouest exponentiel généré par les grands modèles d'IA pousse les réseaux des centres de données à leurs limites physiques, obligeant les fournisseurs de cloud à reconsidérer leurs options. « Alors que les GPU, l'alimentation électrique et le refroidissement sont depuis longtemps reconnus comme des contraintes essentielles pour la mise à l'échelle des centres de données, la fibre optique, qui était autrefois essentiellement considérée comme un produit et non comme un bien fondamental, assume désormais un rôle stratégique à part entière », a déclaré Shriya Mehrotra, directrice analyste chez Gartner. De plus, selon elle, à mesure que les hyperscalers s'assurent un approvisionnement à long terme en fibre optique et investissent massivement dans des connexions dédiées, la concurrence pour la capacité s'intensifie, ce qui réduit d'autant la disponibilité pour les autres entreprises et allonge les délais de déploiement.
Fibre optique et mise à l'échelle de l'IA
À mesure que les systèmes IA évoluent, les limites des réseaux freinent de plus en plus les performances, avec comme conséquence la sous-utilisation de GPU coûteux et un retour sur investissement qui n’est pas à la hauteur des investissements importants dans les infrastructures. Selon Manish Rawat, analyste en semi-conducteurs chez TechInsights, la fibre optique apparaît désormais comme la prochaine contrainte structurelle à la mise à l'échelle de l'IA, avec des implications potentielles à long terme. « La fibre optique est une dépendance silencieuse qui évolue de manière non linéaire avec la croissance de l'IA », a expliqué M. Rawat. « Les charges de travail IA génèrent un trafic est-ouest massif, nécessitant une synchronisation étroite entre des milliers de GPU, ce qui augmente considérablement la demande optique intra-centre de données et inter-campus. »
Mais selon Sanchit Vir Gogia, chef analyste chez Greyhound Research, ce que l'on appelle le « mur réseau » n'est pas un goulot d'étranglement unique. « Un ensemble de contraintes que sont la disponibilité de la fibre optique, la densité de commutation, les limites des émetteurs-récepteurs optiques et les inefficacités architecturales se chevauchent et apparaissent lorsque les charges de travail IA atteignent une certaine échelle », a expliqué M. Gogia. « La pression combinée de l'évolution de l'IA et du déploiement simultané du haut débit par les gouvernements a mis fin à l’hypothèse historique selon laquelle la fibre optique était abondante et bon marché », a ajouté M. Gogia. Cependant, selon les analystes, le déploiement de davantage de fibre optique ne suffira pas à lui seul à relever le défi. Une amélioration de l'architecture réseau sous-jacente est également nécessaire. « Au-delà de la fibre optique brute et de la commutation, l'architecture réseau globale doit évoluer pour acheminer, traiter et gérer efficacement le trafic généré par l'IA », a estimé Mme Mehrotra. « Les conceptions existantes ne sont pas toujours adaptées aux modèles de trafic agrégés et irréguliers générés par les déploiements IA massifs, ce qui nécessite de nouvelles architectures, notamment des structures de réseau IA et des solutions d'interconnexion de centres de données optimisées. »
Changement de stratégie pour les centres de données
M. Rawat a fait remarquer que l'accord entre Meta et Corning ne vise pas à résoudre les pénuries de fibre optique à court terme, mais à donner à Meta une plus grande certitude et un meilleur contrôle pour la mise en place d'une infrastructure IA à grande échelle. « Meta s'assure une capacité optique garantie, une priorité de fabrication pendant les cycles de construction de l'IA et des conceptions de fibre adaptées à ses architectures, tout en déconnectant l'approvisionnement des risques géopolitiques », a expliqué M. Rawat. « Meta suit le même modèle d'intégration verticale que celui des hyperscalers pour les puces IA personnalisées, les contrats d'alimentation électrique et la planification du réseau, la fibre n'étant que la couche suivante. » Toujours selon M. Rawat, cette approche accélère l'émergence d'un écosystème réseau à deux niveaux, dans lequel les hyperscalers exploitent des chaînes d'approvisionnement étroitement contrôlées, tandis que les entreprises dépendent de capacités partagées avec des délais plus longs et moins d'options de personnalisation.
« Le modèle passe de l'achat de fibre optique à la sécurisation de la fibre optique via des contrats à terme, la normalisation et la planification pluriannuelle », a déclaré M. Rawat. « Les prix de l'interconnexion cloud resteront stables, car les hyperscalers absorbent les capacités excédentaires. En fin de compte, les choix d'architecture réseau auront plus d'importance que la sélection des fournisseurs pour les entreprises qui recherchent la résilience et l'évolutivité. » Selon M. Gogia, les hyperscalers passent effectivement du statut de locataires dans l'écosystème de la fibre optique à celui de propriétaires stratégiques. « Ce qui était auparavant acheté sur le marché au comptant est désormais bloqué pour plusieurs années afin de garantir les coûts, la rapidité de déploiement et le contrôle opérationnel, à mesure que l'infrastructure IA devient de plus en plus gourmande en capitaux. »

Commentaire