Après une décennie d’existence, Google a décidé de faire un point d’étapes sur son architecture réseau au sein de ses datacenters, nommée Jupiter. Dans un document, l’équipe en charge du projet donne en préambule les différents bénéfices du réseau qui sous-tend plusieurs de ses services (Search, YouTube, Gmail, G-cloud,…). Elle « a permis de multiplier par 5 la vitesse et la capacité, de réduire de 30 % les dépenses d’investissements (capex) et de baisser de 41% la consommation d’énergie ».

Une partie de ces améliorations provient des commutateurs de circuits optiques (OCS pour Optical Circuit Switches) qui utilisent des miroirs montés sur des systèmes micro-électromécaniques (Mems pour Micro-ElectroMechanical Systems). Ils sont là pour faire correspondre dynamiquement un port d’entrée de fibre optique à un port de sortie en s’appuyant sur le SDN (Software Defined Network) de la firme. Concrètement, au sein des switches de Google, un signal atteint un « réseau de collimateurs de fibres » (un collimateur est un composant pour coupler la lumière dans et en dehors de la fibre optique) qui comprend 136 ports d’entrée/sortie. Quand le signal sort de ces fibres, il rebondit sur un répartiteur (splitter) avant d’arriver sur un dispositif MEMS dotés de 136 micro-miroirs. La lumière se déplace sur deux dimensions et réfléchit le signal vers l’une des 136 fibres du réseau de collimateurs de sortie.

Un réseau adaptable

Pour Google, le recours à cette technologie était nécessaire pour que son réseau puisse supporter des éléments réseaux hétérogènes selon un modèle pay-as-you-grow, en ajoutant des composants uniquement en cas de besoin et de manière incrémentielle. Comme l’explique le document, il faut « permettre l’ajout progressif de capacités réseaux même s’il s’agit d’une technologie différente de celle déployée précédemment, afin de fournir une augmentation proportionnelle de la capacité et une interopérabilité native pour l’ensemble du parc d’équipements ».

Cette adaptabilité reste un défi pour la firme américaine, car l’architecture réseau doit être déployée à l’échelle d’un bâtiment entier. « De plus, les serveurs et les solutions de stockage installés dans le bâtiment sont en constante évolution, passant de 40 Gbit/sec à 100 Gbit/sec à 200 Gbit/sec et aujourd'hui à 400 Gbit/sec d'interconnexions réseau natives. Par conséquent le réseau du datacenter doit évoluer de manière dynamique pour suivre le rythme des nouveaux éléments qui s'y connectent », précise le rapport.  La firme a également optimisé la longueur des chemins, « 60 % du trafic emprunte un chemin direct de la source à la destination des blocs d’agrégation, pendant que le reste transite par un bloc supplémentaire ».

Des optimisations encore en cours

Ces améliorations ont un impact direct sur les services de Google. « Servir des résultats de recherche web en temps réel peut par exemple nécessiter des garanties de latence et une allocation de bande passante en temps réel, tandis qu'un travail d'analyse par lots de plusieurs heures peut avoir des exigences de capacité plus flexibles pour de courtes périodes. » Dans ces conditions, le réseau du centre de données doit allouer la bande passante et le chemin d'accès aux services en fonction des modèles de communication en temps réel et de l'optimisation du réseau en fonction des applications.

Si les avancées sont importantes, il reste encore du travail au Californien pour améliorer sa topologie réseau. Il s’agit par exemple de la co-optimisation des demandes de workload avec le trafic réseau et l’ingénierie de topologie pour obtenir des performances prévisibles de bout en bout. C’est utile dans le cadre de l’entraînement des modèles de machine learning gourmands en bande passante. Google travaille aussi sur l’adaptation de ses technologies au campus et au réseau inter-datacenters.