Evan Pena, directeur général des services professionnels chez Google Cloud et directeur de la red team de Mandiant depuis plus de cinq ans, utilise presque quotidiennement de grands modèles de langage (LLM) « pour confirmer des réponses ou trouver d'autres idées sur la manière d'enquêter sur une vulnérabilité ». Ces outils de traitement du langage naturel (NLP), qui s'appuient sur des réseaux neuronaux, peuvent générer du texte ou du code presque comme des humains, et ils peuvent également reconnaître des modèles. Exploiter leur potentiel fait partie du travail d'Evan Pena. Pour cet expert en sécurité, l'utilisation de grands modèles de langage permet souvent de terminer les tâches rapidement, un facteur essentiel dans la cybersécurité où la charge de travail est souvent élevée et où la pénurie de main-d'œuvre qualifiée est un véritable problème.

Evan Pena et ses collègues ont eu besoin d'un utilitaire C# pour tester une combinaison connue de nom d'utilisateur et de mot de passe sur un certain nombre d'hôtes au sein d'un réseau. « Comme il s'agissait d'une red team, nous ne voulions pas utiliser d'outils open source pour accomplir cette tâche pour éviter les indicateurs statiques et la détection par les EDR », explique-t-il. « Nous avons pu développer cet outil et le tester entièrement dans un environnement d'entraînement avant de l'utiliser dans un environnement de production en l'espace de quelques heures. L'outil leur a permis d'identifier l'accès de l'administrateur local à un système et d'effectuer des déplacements latéraux dans l'environnement. Les red et blue team peuvent utiliser les LLM pour de nombreuses autres tâches. L'entreprise de sécurité offensive Bishop Fox explore ainsi la manière dont ces modèles peuvent alimenter les campagnes d'ingénierie sociale, le fournisseur de solutions de cybersécurité Check Point Software exploite de son côté l'IA pour optimiser la recherche de logiciels malveillants et de vulnérabilités, tandis que Cossack Labs l'utilise pour recruter des experts en sécurité pour son activité de solutions de protection des données.

Du bon usage des LLM pour les équipes offensives et défensives

Les grands modèles de langage ont commencé à révolutionner la manière dont les équipes offensives et défensives effectuent leur travail. Ces outils ont d'abord été utilisés pour automatiser des tâches banales, ce qui permet de libérer un temps et des ressources précieux. Peu à peu, cependant, ils commencent à s'étendre à des domaines plus complexes de la cybersécurité. « On peut dire que les LLM et l'IA générative ont révolutionné la capacité des équipes offensives à mener des campagnes d'ingénierie sociale et de phishing à grande échelle », déclare Brandon Kovacs, consultant senior en red team pour Bishop Fox. « Par exemple, l'utilisation de LLM qui ont été pré-entraînés sur des milliards de paramètres de texte humain, en plus de fournir à ces modèles des données supplémentaires provenant de sources publiques concernant la cible, nous a permis de créer des campagnes très convaincantes et personnalisées à l'échelle. Cette opération prendrait généralement des heures ou des jours. Cependant, grâce à l'IA, nous sommes en mesure de les créer instantanément ».

Bishop Fox étudie également les moyens de créer et d'étudier de nouvelles souches de logiciels malveillants qui n'ont jamais été vues dans la nature. En outre, il utilise les LLM pour analyser le code source pour identifier les failles de sécurité, une tâche qui est également une priorité absolue chez Check Point, selon Sergey Shykevich, responsable du groupe de renseignement sur les menaces de l'entreprise. « Nous utilisons un plugin appelé Pinokio, un script Python utilisant le modèle davinci-003 pour faciliter la recherche de vulnérabilités sur les fonctions décompilées par l'outil IDA », explique-t-il. Check Point s'appuie également sur l'intelligence artificielle pour rationaliser le processus d'investigation des logiciels malveillants. Ils utilisent Gepetto, un script Python s'appuyant sur les modèles GPT-3.5 et GPT-4 pour fournir un contexte aux fonctions décompilées par l'outil IDA. « Gepetto clarifie le rôle de certaines fonctions du code et peut même renommer automatiquement ses variables », explique Sergey Shykevich. Certaines red et blue team ont également trouvé des moyens contre-intuitifs d'obtenir l'aide de l'IA. Anastasiia Voitova, responsable de l'ingénierie de sécurité chez Cossack Labs, explique ainsi que son équipe défensive réfléchit à cette technologie dans le cadre du processus de recrutement, en essayant de filtrer les candidats qui dépendent trop de l'IA. « Lorsque j'embauche de nouveaux ingénieurs en cybersécurité, je leur donne une tâche à tester, et certains d'entre eux demandent simplement ChatGPT et copient-collent aveuglément la réponse sans réfléchir », explique Anastasiia Voitova. « ChatGPT est un bon outil, mais ce n'est pas un ingénieur, alors en embauchant des candidats qui ne possèdent pas les bonnes compétences, la vie d'une équipe défensive peut devenir plus difficile ».

Muscler les red et blue team aux LLM

Les équipes offensives et défensives qui cherchent à incorporer de grands modèles de langage dans leur travail quotidien doivent le faire de manière systématique. Elles doivent le diviser en étapes/processus, puis examiner chaque étape et déterminer si le LLM peut les aider dans une étape spécifique ou non explique Sergey Shykevich. Ce processus n'est pas simple et exige des experts en sécurité de penser différemment. Il s'agit d'un « changement de paradigme », comme le dit Brandon Kovacs. Confier à un système des tâches liées à la cybersécurité qui étaient habituellement effectuées par des humains peut s'avérer un ajustement difficile si les risques de sécurité posés par la technologie ne font pas l'objet d'un examen approfondi.

Heureusement, les barrières à l'entrée pour former et exécuter ses propres modèles d'IA se sont abaissées au cours de l'année écoulée, en partie grâce à la prévalence des communautés d'IA en ligne, telles que HuggingFace, qui permettent à tout un chacun d'accéder et de télécharger des modèles open source à l'aide d'un kit de développement logiciel. « Par exemple, nous pouvons rapidement télécharger et exécuter les modèles Open Pre-trained Transformer Language Models (OPT) localement sur notre propre infrastructure, ce qui nous donne l'équivalence des réponses de type GPT, en seulement quelques lignes de code, sans les garde-fous et les restrictions généralement mis en œuvre par l'équivalent ChatGPT », explique Brandon Kovacs. Les red et blue team qui souhaitent utiliser de grands modèles de langage doivent tenir compte des implications éthiques potentielles de cette technologie. Il s'agit notamment de la protection de la vie privée, de la confidentialité des données, des préjugés et du manque de transparence. « La prise de décision en matière d'IA peut être assez opaque », résume Brandon Kovacs.

Le travail humain transformé par l'IA

Lors de l'utilisation des LLM, les équipes offensives et défensives doivent toutefois garder une chose en tête l'esprit. « La technologie n'est pas parfaite », déclare Brandon Kovacs. « L'IA et les LLM sont encore relativement nouveaux et en sont à leurs balbutiements. Qu'il s'agisse d'améliorer la sécurité des systèmes d'IA eux-mêmes ou de résoudre les problèmes d'éthique et de protection de la vie privée soulevés par cette technologie, il nous reste encore beaucoup de chemin à parcourir ». Brandon Kovacs et la plupart des chercheurs considèrent en fait les LLM comme un moyen de compléter et d'assister les équipes offensives et défensives, et non de les remplacer entièrement, car si ces modèles excellent dans le traitement des données et l'élaboration d'idées, ils manquent d'intuition et de contexte humains. « Les LLM sont encore loin de pouvoir remplacer les chercheurs ou de prendre des décisions liées aux recherches cybersécurité ou aux red team », explique Sergey Shykevich. « C'est un outil qui facilite le travail, mais les chercheurs doivent encore examiner ses résultats. La qualité des données est également importante, comme le remarque Brandon Kovacs : « L'efficacité des LLM et les résultats qu'ils fournissent sont fortement influencés par la qualité des données fournies lors de l'apprentissage du modèle. Dans les années à venir, cette technologie sera de plus en plus intégrée dans la vie quotidienne des experts en technologie, transformant potentiellement tout le monde en puissant utilisateur en cybersécurité ».

Des outils permettant d'atteindre cet objectif, tels que Charlotte AI, récemment lancé par CrowdStrike, ont commencé à voir le jour. Ce dernier se présente comme un analyste de sécurité basé sur l'IA générative que les clients peuvent utiliser en posant des questions en anglais et dans des dizaines d'autres langues, et recevoir des réponses. « De grands modèles linguistiques sont construits pour intégrer des connaissances provenant de magasins de données externes, ainsi que des données générées par des technologies telles que la plateforme Falcon », a fait savoir un porte-parole de CrowdStrike.

Dans ce contexte, pour tout membre d'une red ou blue team, se tenir au courant de l'évolution de l'IA est une nécessité. Dans les années à venir, des outils de plus en plus sophistiqués seront utilisés tant sur le plan offensif que défensif. « Du côté offensif, nous pouvons nous attendre à voir des attaques plus avancées et automatisées, en plus des attaques d'ingénierie sociale de plus en plus avancées telles que les deepfakes ou le phishing vocal », explique Brandon Kovacs. « Du côté défensif, nous pouvons nous attendre à ce que l'IA joue un rôle crucial dans la détection et la réponse aux menaces, et aide les analystes de sécurité à automatiser et à passer au crible de vastes ensembles de données pour identifier les menaces potentielles ». Comme ce dernier le prévoit, les pirates continueront d'utiliser les LLM et d'imaginer des moyens innovants pour infiltrer les organisations et enfreindre les règles de sécurité. Les équipes de sécurité doivent donc garder une longueur d'avance. En combinant l'intelligence humaine et les capacités de l'IA, red et blue team pourront sans doute mieux contribuer à minimiser l'impact des cyberattaques, ce qui sera loin d'être une mince affaire.