Les grands modèles de langage (LLM) envoient régulièrement les utilisateurs vers de mauvaises adresses web, y compris des sites non enregistrés, inactifs, voire malveillants, lorsqu'on leur demande où se connecter pour accéder à un contenu de marque spécifique. Dans une dernière étude de Netcraft, les chercheurs ont constaté que lorsqu'ils demandaient à un LLM populaire où se connecter à des marques connues, 34 % des URL qu'ils renvoyaient n'appartenaient pas à ces marques. Pire encore, l'un des liens menait directement à un site de phishing actif. « Cette étude montre à quel point il est important d’être vigilant face aux pirates qui imitent les URL de marques bien connues pour accéder à des informations sensibles et/ou à des comptes bancaires », a déclaré Melinda Marks, analyste principale à l'Enterprise Strategy Group (ESG). « Les entreprises, en particulier les grandes marques établies, devraient protéger leur réputation en communiquant avec leurs clients sur les URL auxquelles ils peuvent faire confiance pour les communications importantes et les transactions sécurisées », a-t-elle ajouté.
La recherche souligne que près de 30 % des URL frauduleuses n'étaient pas enregistrées ou actives, ce qui en fait un terrain de choix pour les acteurs de la menace qui cherchent à créer des sites malveillants. « Les prompts utilisés n'étaient même pas obscurs et reflétaient simplement la façon dont les gens demandent naturellement de l'aide en ligne », a fait remarquer Bilal Rashid, analyste chez Netcraft, ajoutant que le risque est systémique, évolutif et déjà présent dans la nature.
Les plus petites marques davantage frappées par les hallucinations
5 % de ces URL conduisaient à des entreprises sans aucun rapport avec le sujet et, plus troublant encore, l'une d'entre elles renvoyait à un domaine d'hameçonnage. Perplexity, le moteur de recherche alimenté par l'IA, a recommandé une page Google Sites « hxxps://sites[.]google[.]com/view/wells-fargologins/home », qui se faisait passer pour la page de connexion de la Wells Fargo avec un clone convaincant du site réel. « L'URL est apparue directement parce que l'IA pensait qu'elle était à sa place », ont indiqué les chercheurs de Netcraft dans un billet de blog, expliquant ce qui se passe lorsque l'IA donne une mauvaise URL. « Ce sont des conditions parfaites pour les cybercriminels », a déclaré J Stephen Kowski, Field CTO chez SlashNext. « Lorsque les modèles d'IA créent des URL qui pointent vers des domaines non enregistrés, les attaquants peuvent simplement enregistrer ces domaines exacts et attendre que les victimes arrivent ». Pour M. Kowski, cela revient à donner aux attaquants une feuille de route pour leurs futures victimes. « Un seul lien malveillant recommandé peut compromettre des milliers de personnes qui seraient normalement plus prudentes ».
Les conclusions de l'étude Netcraft sont particulièrement préoccupantes, car les marques nationales, principalement dans le domaine de la finance et de la fintech, se sont révélées parmi les plus touchées. Les coopératives de crédit, les banques régionales et les plateformes de taille moyenne s'en sortent moins bien que les géants mondiaux. Les plus petites marques, qui ont moins de chance d'apparaître dans les données de formation des LLM, ont été fortement hallucinées. « Les LLM ne récupèrent pas l'information, ils la génèrent », a expliqué Nicole Carignan, RSSI chez Darktrace. « Et lorsque les utilisateurs considèrent ces résultats comme des faits, ils ouvrent la porte à une exploitation massive ». Mme Carignan souligne également un défaut structurel sous-jacent : selon elle, les modèles sont conçus pour être utiles, pas pour être précis, et à moins que les réponses de l'IA ne soient fondées sur des données validées, elles continueront à inventer des URL, souvent avec des conséquences dangereuses. Les chercheurs ont souligné que l'enregistrement préalable de tous les domaines hallucinés, une solution apparemment viable, ne fonctionnera pas car les variations sont infinies et les LLM en inventeront toujours de nouveaux, ce qui entraînera des attaques dites de Slopsquatting.
GitHub alimenté en dépôts de codes malveillants
Les URL hallucinées ne sont pas toutes involontaires. Dans le cadre d'une recherche sans rapport avec le sujet, Netcraft a trouvé des preuves que des attaquants avaient délibérément empoisonné des systèmes d'IA en alimentant GitHub avec des dépôts de codes malveillants. « Plusieurs faux comptes GitHub partageaient un projet appelé Moonshot-Volume-Bot et étaient répartis sur des comptes dotés de biographies riches, d'images de profil, de comptes de médias sociaux et d'activités de codage crédibles », ont déclaré les chercheurs. « Il ne s'agissait pas de comptes jetables, mais de comptes conçus pour être indexés par des pipelines d'entraînement à l'IA ».
Le projet Moonshot impliquait une API blockchain Solana contrefaite qui réacheminait les fonds directement dans le portefeuille de l'attaquant. « La compromission des corpus de données utilisés dans le pipeline d'entraînement à l'IA met en évidence un risque croissant pour la chaîne d'approvisionnement de l'IA », a déclaré Mme Carignan. « Il ne s'agit pas d'une simple hallucination, mais d'une manipulation ciblée. L'intégrité, l'approvisionnement, le nettoyage et la vérification des données sont essentiels pour garantir la sécurité des résultats du LLM. » Alors que les chercheurs ont recommandé des solutions réactives comme la surveillance et le démantèlement pour s'attaquer au problème, Gal Moyal, Office CTO chez Noma Security, a suggéré une approche plus proactive. « Les garde-fous de l'IA devraient valider la propriété du domaine avant de recommander l'ouverture d'une session », a-t-il préconisé. « Il ne faut pas laisser les modèles « deviner » les URL. Chaque requête contenant une URL doit être vérifiée.