En avril dernier, Anthropic dévoilait le projet Glasswing pour détecter les failles avec l’IA en s’appuyant sur le modèle Claude Mythos. Plutôt que de rendre le modèle public, le fournisseur en a limité l'accès à un consortium fermé regroupant plus de 40 entreprises, parmi lesquelles des poids lourds de l'industrie IT et de la sécurité (AWS, Apple, AWS, Broadcom, Cisco, Crowdstrike, Google, Microsoft, Nvidia et Palo Alto Networks), mais aussi des entreprises comme JPMorganChase et d'autres organisations comme la fondation Linux. Aujourd’hui, il dresse un premier bilan en annonçant la découverte de 10 000 vulnérabilités.
« Ces derniers mois, nous avons utilisé Mythos pour analyser plus de 1 000 projets open source, qui constituent la base d’une grande partie d’Internet et de notre propre infrastructure », précise Anthropic. Au cours de ce processus, le modèle a détecté 6 202 failles critiques ou de haute gravité dans ces projets, dont 1 752 ont depuis été évaluées par six sociétés de recherche en sécurité indépendantes.
Un déluge de rapport de bugs
Dans les rapports présentés, 90, 6% (1 587) « se sont révélés être des vulnérabilités valides et 62,4 % (1 094) ont été confirmées comme étant de gravité élevée ou critique », confie Anthropic. Ce dernier note que cet afflux impacte les mainteneurs des projets open source. « Ils sont confrontés à une déluge de rapports de bugs de faible qualité, générés par l’IA. Plusieurs d’entre eux nous ont indiqué être actuellement confrontés à une forte saturation de leurs capacités, et certains nous ont même demandé de ralentir le rythme de nos divulgations, car ils ont besoin de plus de temps pour concevoir des correctifs. »
L’entreprise estime avoir signalé à ce jour 530 failles critiques ou de gravité élevée aux responsables de la maintenance et prévoit d'en signaler 827 autres. Parmi ces 530 failles, 75 ont été corrigées et 65 avis de sécurité publiés. Le fournisseur explique ce nombre relativement faible par trois facteurs : premièrement, le délai de 90 jours prévu par sa politique de divulgation coordonnée des vulnérabilités n'est pas encore expiré ; deuxièmement, ce nombre est probablement sous-estimé car certaines failles ont été corrigées sans divulgation préalable ; et enfin, l'écosystème de sécurité est déjà saturé.
Revoir son système de défense
Mark Tauschek, analyste chez Info-Tech Research Group indique « cette mise à jour confirme une réalité incontournable : les responsables informatiques et de la sécurité doivent désormais composer avec la chute spectaculaire du coût de découverte des vulnérabilités logicielles. Si un seul modèle IA peut révéler des milliers de vulnérabilités dans des logiciels critiques en quelques semaines, le délai entre la découverte d'une faille et son exploitation ne cessera de se réduire. » Les entreprises qui continuent de considérer les correctifs comme une opération trimestrielle s'exposent à des risques bien plus importants qu'il y a encore peu de temps, a-t-il ajouté. L’analyste précise que le fait que certains responsables de la maintenance aient demandé à Anthropic de ralentir le rythme ne devait pas être interprété comme une résistance à une meilleure sécurité. « Cela révèle plutôt un problème de capacité qui s'accumule depuis des années », observe-t-il. « Nombre de projets open source sur lesquels s'appuient les entreprises sont maintenus par de petites équipes ou des bénévoles, souvent des personnes ayant un emploi à temps plein. » Il ajoute, « les entreprises qui dépendent de ce code opèrent à très grande échelle. L'IA peut accélérer la détection des failles, mais elle ne crée pas les ressources humaines nécessaires pour valider les résultats, concevoir des correctifs sûrs, les tester et les déployer. Cela oblige également à repenser la défense en profondeur. »
Kellman Meghu, directeur technique de DeepCove Cybersecurity, a ajouté que rien dans la mise à jour du projet Glasswing ne le surprenait. « Notre entreprise avait constaté il y a près de deux ans que, entre les mains d'un chercheur compétent, la capacité [de l'IA] à identifier et exploiter les vulnérabilités était considérablement accélérée », a-t-il souligné. « Le changement majeur aujourd'hui réside dans la baisse significative des obstacles à l'utilisation des modèles de langage complexes. Cette situation ne fera que s'améliorer et constitue désormais notre réalité. ». DeepCove, a-t-il ajouté, « a dû accélérer ses processus de correctifs et d'évaluation des contrôles, qui incluent désormais l'exploitation de modèles de langage complexes pour identifier et corriger les vulnérabilités, ou mettre en place des contrôles compensatoires pour nos services et les infrastructures de nos clients. » Selon Kellman Meghu, « la détection des bogues est aujourd'hui peu coûteuse, mais leur correction reste lente et dépendante de l'intervention humaine dans de nombreux cas. Les processus de gestion des changements, les périodes de tests réglementaires et les interruptions de service imposées par les clients rendent ce rythme particulièrement difficile à suivre. »
Responsabiliser les éditeurs
Ce que la mise à jour d'Anthropic démontre réellement, a-t-il fait remarquer, « c'est que le principal frein à la cybersécurité n'est plus la détection des vulnérabilités, mais l'intégration rapide des correctifs et l'adaptation des défenses des clients pour rester compétitifs. » Son analyse rejoint celle d'Anthropic, qui a souligné que « le principal obstacle à la correction de ces failles réside dans la capacité humaine à les trier, les signaler, concevoir et déployer les correctifs ». La pression opérationnelle liée à ce nouveau rythme de déploiement des correctifs est « aussi immédiate que la menace offensive », explique Kellman Meghu. « Nous avons réagi en intégrant l'audit assisté par IA à notre propre processus de développement et en renforçant les SLA de correctifs clients pour les dépendances critiques. Mais ce processus est complexe à gérer. Nous ne faisons pas aveuglément confiance aux LLM ou aux agents pour fonctionner de manière autonome, ce qui a entraîné des changements importants dans les processus d'intégration des LLM assistés par opérateur. »
De plus, comme l'a noté David Shipley, CEO de Beauceron Security, une question cruciale reste sans réponse : quel est le coût de la détection de chacune de ces vulnérabilités ? « Combien de jetons sont consommés ? J’ai entendu dire que cela coûte environ 500 $ par minute, alors je suis vraiment curieux de connaître le coût réel », a-t-il déclaré. « S’ils peuvent nous expliquer comment ils ont trouvé autant de vulnérabilités, ils peuvent certainement répondre à la question : combien de calculs cela a-t-il coûté ?» Il a ajouté que la seule solution définitive est de « responsabiliser les éditeurs de logiciels. C’est le seul moyen de sortir de ce bourbier, car c’est ce déséquilibre fondamental qui nous a conduits à cette situation. »

Commentaire