Visibilité et contrôle des performances du réseau sont devenus plus complexes au fur et à mesure que les entreprises basculent les workload dans le cloud. Cette migration engendre un manque de contrôle sur une infrastructure non maîtrisée par l'entreprise. Par ailleurs, la montée en puissance du travail à distance due à la pandémie a accélèré ce transfert. On peut ajouter à cela, le fait que les applications à base de conteneurs déployées sur des architectures nativement cloud compliquent encore la visibilité du réseau.

Pour ces raisons et bien d'autres, les entreprises ont besoin d'outils capables de surveiller non seulement le centre de données et le réseau étendu, mais aussi l'internet, les applications SaaS et les opérations de cloud public de plusieurs fournisseurs. « Seuls 36 % des professionnels de l'exploitation des réseaux estiment que leurs outils de gestion de réseau sont aussi performants pour gérer les réseaux dans le cloud que sur site », explique Shamus McGillicuddy, vice-président de la recherche chez Enterprise Management Associates (EMA). « Dans le même temps, l'entreprise moyenne peut attribuer environ 40 % de son trafic réseau au cloud à l'heure actuelle. Il s'agit donc d'un énorme désavantage ».

La surveillance du cloud souvent oubliée

« L'un des problèmes est que l'équipe chargée de l'infrastructure réseau n'a pas toujours la même autorité sur l'environnement cloud que sur le réseau sur site », explique Shamus McGillicuddy. « Souvent, l'adoption du cloud a été menée par une équipe chargée des applications ou un secteur d'activité, qui ont considéré le cloud comme une alternative à l'informatique, et pas nécessairement comme une extension de celle-ci. Les équipes qui ont plus d'autorité dans le cloud ne pensent pas toujours qu'il est important d'avoir une surveillance du réseau. Elles sont plus intéressées par le contrôle des performances des applications », poursuit M. McGillicuddy. « Elles ne voient pas l'intérêt de consacrer leur budget à des choses qu'elles considèrent comme une surveillance de l'infrastructure à l'ancienne ».

Selon Dan Rohan, chef de produit chez Kentik, fournisseur de solutions de visibilité réseau et de gestion des performances, la façon dont les entreprises envisagent le rôle des ingénieurs réseau dans le cloud fait toute la différence. « Lorsque nous avons commencé à parler de la surveillance du cloud il y a deux ou trois ans, je ne pense pas que beaucoup d'ingénieurs réseau s'en souciaient » détaille Dan Rohan. Lorsque les déploiements dans le cloud ont commencé à mûrir et que les entreprises ont examiné de près les coûts, les performances et les contrôles induits, elles ont réalisé qu'elles devaient remettre une certaine structure en place, explique M. Rohan, « et soudain, les ingénieurs réseau ont eu un rôle à jouer à nouveau ».

Le pouvoir des outils actuels

Les réseaux des fournisseurs de cloud sont incroyablement complexes. « Il n'est pas rare aujourd'hui d'avoir 15 rebonds entre vous et le fournisseur de cloud à travers votre FAI, peut-être un opérateur local, puis peut-être un opérateur de niveau 1. Ensuite, vous passerez par 30 autres rebonds à l'intérieur du fournisseur de cloud computing », explique Matt Stevens, président et CEO d'AppNeta. « L'époque des 10 à 20 rebonds au total est donc passée à 40 ou 50 rebonds de réseau de couche 3. Chacun d'entre eux a son propre impact sur vos performances ».

Selon M. Stevens, plus le réseau est complexe, plus il y a de risques de problèmes. « Lorsque vous avez plusieurs employés qui exécutent plusieurs applications, et qu'elles sont hébergées à partir de plusieurs sources, qu'il s'agisse de votre datacenter privé, d'un centre de données virtuel que votre organisation essaie d'exploiter un cloud, entièrement public, ou de quelque chose entre les deux, chaque fois que vous ajoutez une variable supplémentaire, la complexité augmente [de manière exponentielle] ».

Combler les lacunes

Les équipes réseau se tournent vers les fournisseurs pour obtenir de l'aide. Selon EMA, 57 % des équipes réseau ont acquis des outils spécialisés pour combler les lacunes en matière de visibilité du réseau cloud. Le cabinet d'études s'attend à ce que les outils de gestion des performances réseau assurent la surveillance du cloud en combinant les éléments suivants :

- Collecte de métriques à partir d'éléments de réseau virtuels déployés dans le cloud.

- Collecte de journaux de flux et d'autres télémétries offertes par les fournisseurs de cloud computing.

- Collecte de données sur le trafic réseau dans le cloud, telles que les flux de paquets.

- Analyse du trafic synthétique dirigé vers les services SaaS.

Les outils traditionnels de gestion de réseau ont été conçus pour surveiller la santé des routeurs et des commutateurs dans un centre de données ou un réseau sur site, mais le cloud pose des défis différents, explique Dan Rohan. « Les ingénieurs réseau n'ont pas une image de [l'infrastructure du cloud] dans leur tête parce qu'elle se développe rapidement, qu'elle n'a pas été construite par eux et qu'elle change tout le temps, parce que c'est le cloud. Ils partent donc avec ce genre de handicap », explique-t-il. Ils ont besoin d'outils différents pour résoudre les problèmes qui se présentent.

Renseigner les défaillances de connectivité

« Les équipes réseau se tournaient vers ces outils qui se contentaient d'extraire des données de l'API d'AWS, ou de n'importe quelle API du fournisseur de cloud. Mais cela ne donne pas de renseignements pas sur les défaillances de connectivité. Cela ne dit pas pourquoi les choses ne fonctionnent pas. Nous avons donc commencé par-là », détaille Dan Rohan. « Nous pensons que ce qui aide vraiment les gens du réseau dans le cloud aujourd'hui, c'est de répondre à ces questions de connectivité dans des topologies complexes ».

L'outil de Kentik peut fournir aux administrateurs réseau une image du réseau actuel, « la chose dont ils ont hérité », ajoute-t-il. « Cela les aide à visualiser les flux - les bons et les mauvais. Et ils peuvent dire : 'Ok, si nous installons une passerelle de transit ici, et une connexion de peering ici...' et utiliser leurs compétences en matière de réseau, et de fait, réellement utiliser notre outil pour optimiser le contrôle de leurs réseaux ».

Des mesures du réseau pour la visibilité du cloud

Les données de télémétrie qui peuvent révéler l'état des réseaux de cloud hybride proviennent de tous les types de réseaux - datacenter, WAN, Internet, cloud, mobile, périphérie - et de tous les types d'éléments de réseau, y compris les terminaux physiques et virtuels, et les dispositifs dédiés ou natifs du cloud. Les données sont extraites des éléments du centre de données, de l'infrastructure cloud (tels que les maillages de services, les passerelles de transit et d'entrée), de l'infrastructure Internet, des appareils de périphérie (edge, campus, branch), des routeurs et commutateurs WAN traditionnels, des passerelles SD-WAN et des points d'extrémité IoT, pour n'en citer que quelques-uns. Les types de télémétrie peuvent inclure les données de flux exportées par les périphériques réseau (normes de collecte de flux telles que NetFlow, J-Flow, sFlow, IPFIX de l'IETF) ; les journaux de flux des cloud privés virtuels des fournisseurs de cloud ; la télémétrie des périphériques basée sur SNMP ; et les notifications d'événements envoyées via syslog ou SNMP trap.

Selon EMA, outre les données de surveillance passive, telles que les flux et les paquets réseau, les équipes IT se tournent de plus en plus vers des techniques de surveillance active, telles que le test ping de base et la surveillance synthétique de la couche 7, pour augmenter les mesures traditionnelles de surveillance de l'infrastructure et du trafic. Le cabinet d'études constate que 21 % des équipes réseau utilisent des outils de trafic pour observer durablement la disponibilité et les performances du réseau. Ce n'est pas que les entreprises n'aient jamais surveillé ces réseaux et ces dispositifs auparavant ; l'objectif est plutôt de fournir une analyse coordonnée sur une variété de réseaux, une vue unifiée des résultats et la possibilité d'intégrer les résultats analytiques aux flux de travail automatisés. Les outils vont au-delà de la surveillance de l'infrastructure de base pour fournir des vues au niveau des applications et un aperçu de la performance des applications que les utilisateurs finaux rencontrent.

Un paysage varié de vendeurs

Le paysage des produits de gestion de la performance des réseaux est très dense. Les fournisseurs comprennent Accedian, AppNeta, Cisco-ThousandEyes, cPacket Networks, Kentik, LogicMonitor, ManageEngine, Riverbed et SolarWinds.  Il n'y a pas un seul fournisseur qui couvre toutes les briques, et beaucoup d'outils sont complémentaires plutôt que concurrents - une organisation informatique typique utilise entre quatre et dix outils pour surveiller et dépanner son réseau, constate EMA. Le cabinet d'études Gartner, dans son étude Market Guide for Network Performance Monitoring, indique que les outils idéaux pour les environnements sur site deviennent moins efficaces à mesure que les sociétés deviennent de plus en plus hybrides.

Bien que certains fournisseurs puissent offrir une visibilité sur les environnements sur site et dans le cloud, cela est difficile en raison des exigences en matière de transport des données et des différents réseaux, qui ne peuvent pas toujours être vus sous le même angle, explique Gartner. Parmi ses recommandations aux entreprises à la recherche d'outils de gestion des performances réseau, Gartner conseille aux entreprises de « résister au désir d'utiliser la même approche de surveillance dans le cloud que dans l'environnement sur site, en particulier en ce qui concerne la capture et l'analyse des paquets. Concentrez-vous sur les fournisseurs qui prennent en charge les fonctions natives du cloud, telles que les API ou les véritables données network-flow ».

Ajouter l'IA au dépannage des réseaux

Les données de télémétrie à analyser ne manquent pas. Ce qui distingue les outils modernes de surveillance du réseau, c'est leur capacité à mesurer les performances et à placer les résultats dans un contexte qui répond aux questions que se posent les équipes réseau. « Avec le passage au cloud hybride, il ne s'agit plus vraiment de savoir si cela fonctionne ou non. Est-ce que ça marche ou pas ? C'est l'idée que « lent » est le nouveau « down » », explique Matt Stevens d'AppNeta. Les utilisateurs n'appellent pas pour dire qu'ils ne peuvent pas se connecter à Salesforce, par exemple. Ils se plaignent plutôt de la lenteur d'un script dans Salesforce, qui les empêche d’effectuer leur travail, ajoute-t-il.

« Quelle que soit l'architecture déployée, nous allons donner à l'entreprise la visibilité nécessaire pour comprendre quelles sont les performances en jeu, celles que j’obtiens ou encore cet écart est-il si important que je doive prendre des mesures ? Puis-je le mettre de côté et aller travailler sur un autre problème ? questionne Matt Stevens. C'est là que l'intelligence artificielle entre en jeu. Les outils prennent de plus en plus en charge les diagnostics basés sur l'IA qui sont conçus pour trouver des modèles dans les données réseau et en tirer des conclusions sur la base de la détection historique des anomalies et de l'analyse des causes profondes.

Un accompagnement personnalisé

« Nous ne nous contentons pas de vous dire qu'il y a un problème, nous vous disons où il se trouve, nous vous disons pourquoi, nous vous suggérons une solution et nous vous donnons également une note de confiance » qui quantifie la probabilité que la solution proposée fonctionne, explique M. Stevens. Le fait de disposer d'un outil capable de donner aux équipes réseau la confiance nécessaire pour comprendre les problèmes et hiérarchiser les mesures correctives donne de la crédibilité à l'informatique à un moment où les entreprises entreprennent de grands projets de transformation, explique M. Stevens. « Ce sont de grands projets qui touchent beaucoup de gens, et on demande à l'informatique d'être un partenaire commercial ».

Des outils de visibilité du réseau

Scott Bulger, ingénieur réseau systèmes qui a passé plus de 30 ans de sa carrière à travailler avec des fournisseurs de réseaux et des réseaux informatiques d'entreprise, a passé les trois dernières années à travailler avec la technologie d'AppNeta dans deux grandes entreprises. La visibilité sur l'infrastructure cloud est minimale, et la capacité de suivre de bout en bout la perte de paquets, l’instabilité et la latence, dans le cloud du fournisseur de services et dans le sens inverse, vous donne l'autonomie et la validité nécessaires pour dire au fournisseur de cloud : « Quand nous avons une perte de paquets, vous disposez de preuves solides et substantielles, et elles sont irréfutables », explique M. Bulger. Selon ce dernier, la mesure qui le préoccupe le plus est la perte de paquets. Bien que les réseaux TCP/IP aient été conçus pour s'adapter à la perte, « il y a un point - au-dessus de 4 ou 5 %, selon la topologie - où la perte commence à être perceptible et à avoir un impact sur les utilisateurs finaux. Une certaine perte est donc acceptable, mais quand elle est importante, ou quand elle intervient pendant de longues périodes, a un impact », explique-t-il.

Dans l'ensemble, les outils de visibilité du réseau peuvent non seulement aider à identifier les problèmes, mais aussi à éviter les problèmes de performance. « Ces plateformes vous donnent une visibilité sur les problèmes avant qu'ils n'affectent vos clients », explique M. Bulger. Cependant, passer d'une posture réactive à une posture proactive n'est pas facile. « Si votre modèle DevOps ou help-desk est saturé par la prise en charge de problèmes immédiats, vous n'avez pas beaucoup de marge de manœuvre pour les personnes qui vous disent « il y a quelque chose qui est un peu cassé, mais qui pourrait l'être beaucoup plus si nous ne faisons rien » », explique M. Bulger. « Nous avons besoin d'une culture qui donne la priorité à la remédiation proactive », dit-il. « Les managers qui le comprennent sont complètement impliqués et n'hésitent jamais à le financer ».