Le choix d’outils de sécurité dans le cloud basés sur l'apprentissage machine, et en particulier les nouvelles offres GuardDuty et Macie lancées par Amazon Web Services (AWS), pourrait sembler évident pour les clients d’AWS. Certes, ils placent la barre encore plus haut pour les attaquants potentiels, mais, selon les experts, ils ne protégeront pas l’entreprise contre des attaques sophistiquées.

Annoncé en août, le service AWS Macie scrute le contenu des compartiments des utilisateurs d’Amazon S3 et alerte les clients quand il détecte une activité suspecte, avec une surveillance accrue de la conformité PCI, HIPAA et RGPD. Quant à l’offre AWS GuardDuty complémentaire annoncée fin novembre, elle s’appuie sur l'apprentissage machine pour analyser les logs AWS CloudTrail, VPC Flow Logs et AWS DNS. Comme Macie, le travail de GuardDuty se concentre sur la détection d'anomalies pour alerter les clients en cas d’activité suspecte. « D'un point de vue technique, ces solutions sont incroyables », a déclaré Clarence Chio, auteur d’un livre sur le machine learning et la sécurité, à paraître prochainement chez O'Reilly.

L'apprentissage machine, un challenge de plus pour les attaquants

« Chaque fois qu'une plate-forme horizontale livre un service de ce genre, elle apporte quelque chose que personne d'autre n'a la capacité de faire », a-t-il ajouté. En effet, même si les entreprises partagent de plus en plus couramment des informations sur les menaces, la qualité des données que chacune est en mesure de fournir est très inférieure aux données dont dispose un fournisseur cloud comme Amazon. Cette concentration d'informations utiles sur les menaces devrait probablement accélérer la migration du datacenter vers le cloud. Mais il y a quelques inconvénients.

La qualité d’un modèle de machine learning dépend de la qualité des données qui servent à son apprentissage. Cela signifie aussi qu'il est moins efficace pour détecter des choses qu'il n'a jamais vues auparavant - des événements baptisés « cygne noir ». « Il y a beaucoup d’idées fausses dans la représentation que l’on se fait de l'apprentissage machine », a expliqué Hyrum Anderson, directeur technique en science des données chez Endgame. « Si l’on oublie tout ce qu’en disent les médias, l'apprentissage machine n’est qu’un système automatisé alimenté en données, qui, en retour, indique ce qu'il faut rechercher après avoir examiné toutes ces données. En principe, si les volumes de données n’étaient pas aussi colossaux, un humain pourrait faire la même chose ».

Stephen Schmidt, RSSI d'AWS, l'a implicitement reconnu dans un communiqué de presse. « Amazon Macie s’appuie sur l'apprentissage machine pour comprendre les contenus d’une entreprise et le comportement de ses utilisateurs. Le service est capable d’analyser d'énormes quantités de données et offre une meilleure visibilité sur les données pour délivrer des alertes plus précises. Il permet aux clients de se concentrer sur la sécurisation de leurs informations sensibles au lieu de gaspiller leur temps à essayer de les trouver ». En ce sens, on peut dire qu’il a raison. Des services tels que Macie et GuardDuty sont un excellent moyen de savoir rapidement si des compartiments S3 mal configurés exposent les données d'entreprise stockées dans le cloud.

Inefficace contre des adversaires sophistiqués

Probablement que les nouveaux services cloud d’AWS basés sur l’apprentissage machine auraient pu empêcher la plupart des vols de données observées en 2017, comme la fuite de millions de documents classés US Army/NSA INSCOM sur les électeurs américains, et le vol de données de Verizon. Cependant les experts mettent en garde sur le fait que l’apprentissage machine ne protège pas d’un adversaire capable de s’adapter, et que les mesures de sécurité cloud basées sur l'apprentissage machine ne seraient pas aussi efficaces contre des attaques sophistiquées.

Par exemple, la capacité de l’apprentissage machine à classer les malwares de manière probabiliste est une amélioration significative par rapport aux signatures de malwares antivirus traditionnels, qui permettent de voir, ou pas, une correspondance. Comparativement, une détection de logiciels malveillants basée sur l'apprentissage machine est capable de fournir une estimation, par exemple indiquer « qu’un exécutable a 80% de chances d'être malveillant » et la transmettre à un humain pour une inspection plus approfondie.

Néanmoins, les experts rappellent que l’usage de l'apprentissage machine pour détecter les activités malveillantes n'en est qu'à ses balbutiements, et si la modalité constitue un challenge de plus pour les attaquants, elle reste inefficace contre les adversaires sophistiqués. « La détection des anomalies est plus difficile qu'il n'y paraît », fait encore remarquer M. Anderson, soulignant que le tri entre les vrais et les faux positifs reste délicat. « Il est facile de désigner un événement comme « inhabituel ». D'une manière ou d'une autre, tout ou presque est inhabituel. C'est encore un vrai défi », a-t-il déclaré.