En 2024, Cloudflare a lancé auprès de ses clients un service capable de bloquer les robots IA qui collectent de manière automatisée des données sur les sites web. Depuis, plus d'un million d’entre eux ont choisi cette solution pour éviter le data scrapping. Aujourd’hui, le fournisseur passe un cap supplémentaire en expérimentant un moyen de faire payer les éditeurs d’IA pour les données collectées. De plus, les propriétaires de sites web peuvent désormais décider qui peut explorer leurs sites, et dans quel but, et les éditeurs d'IA peuvent révéler via Cloudflare si les données qu'ils recueillent seront utilisées pour la formation, l'inférence ou la recherche, afin d'aider les propriétaires à décider s'ils autorisent l'exploration.
Le spécialiste du CDN constate que « depuis des décennies, Internet fonctionne sur la base d'un échange simple : les moteurs de recherche indexent le contenu et renvoient les utilisateurs vers les sites web d'origine, générant ainsi du trafic et des revenus publicitaires pour les sites web de toutes tailles. Ce cycle récompense les créateurs qui produisent un contenu de qualité en leur donnant de l'argent et une audience, tout en aidant les utilisateurs à découvrir des informations nouvelles et intéressantes ». Or pour la société, « ce modèle ne fonctionne plus : les crawlers d'IA collectent du contenu, que ce soit du texte, des articles et des images, pour générer des réponses, sans envoyer les visiteurs vers la source originale, privant les créateurs de contenu de revenus et de la satisfaction de savoir que quelqu'un lit leur production. Si l'incitation à créer un contenu original et de qualité disparaît, l’entreprise finit par être perdante et l'avenir de l'Internet est en danger ».
La méthode Pay-per-crawl adaptables aux agents IA
Pour répondre à cette problématique, Cloudflare teste un mécanisme de paiement appelé pay-per-crawl, qui accorde aux propriétaires de sites web de décider s'ils autorisent les robots d'indexation à accéder à leur contenu, et si cet accès sera gratuit ou payant. Cette technologie, actuellement en version bêta privée, s'intègre à l'infrastructure web existante pour générer un paiement et un tarif au robot d'exploration via un code de réponse HTTP « 402 payment required ». Actuellement, le propriétaire du site peut fixer un prix unique pour le site ou choisir de laisser certains robots d'exploration y accéder gratuitement, mais Cloudflare s'attend à ce que la fonction évolue avec le temps, pour aller peut-être vers une tarification dynamique, ou pour facturer des montants différents selon les types de contenu.
« Le véritable potentiel du pay-per-crawl pourrait émerger dans un monde par agent », a indiqué l'entreprise dans un blog à propos de la fonctionnalité. « Et si un paywall géré par agent pouvait fonctionner à la périphérie du réseau, de manière entièrement programmatique ? On peut imaginer un chercheur qui demande à son programme de recherche approfondie préféré de l’aider à synthétiser les dernières recherches sur le cancer ou un dossier juridique, ou simplement une personne qui veut de l’aide pour trouver le meilleur restaurant de Soho, et que chacun octroie ensuite à cet agent un budget à dépenser pour acquérir le contenu le meilleur et le plus pertinent ». Cloudflare joue le rôle de commerçant officiel pour les achats, facturant les robots de recherche et distribuant les fonds aux propriétaires des sites. Si le robot n'a pas encore de relation de facturation avec Cloudflare, il est bloqué, mais reçoit un message d'erreur indiquant qu'avec une telle relation, il pourrait avoir accès au contenu. Cloudflare a invité, à la fois les crawlers intéressés par le paiement du contenu et les propriétaires de contenu qui souhaitent être payés, à s'inscrire à la version bêta. Les entreprises clientes existantes peuvent également contacter leur responsable de compte.
Un accord gagnant-gagnant
Jean-Louis Fritz, conseiller principal en cybersécurité chez Info-Tech Research Group, juge cette approche positive, car elle répond aux inquiétudes sur l'utilisation non autorisée de contenus par des robots d'indexation. « En donnant aux propriétaires de sites web le contrôle sur la consultation de leur contenu et son utilisation par les robots d'indexation, cette solution permet aux créateurs de contenu de protéger leur propriété intellectuelle et de la monétiser potentiellement de manière plus efficace », a-t-il estimé.
« L'obligation pour les éditeurs d'IA de divulguer l'objectif de leurs robots d'exploration introduit un niveau de transparence et de responsabilité qui faisait défaut dans le secteur, ce qui contribue à instaurer la confiance entre les créateurs de contenu et les opérateurs d'IA ». Mais, selon lui, plusieurs questions restent en suspens, comme le traitement de ce qu'il appelle les informations « legacy» qui ont déjà été récupérées par les robots d'indexation. L’analyste est favorable à des solutions axées sur l'industrie plutôt qu'à des réglementations punitives : « La décision de Cloudflare pourrait indiquer que l'industrie est prête à soutenir un écosystème numérique équitable et durable, qui serait à même d’équilibrer les besoins des créateurs de contenu et des innovateurs d'IA dans des termes qui profitent à tous les acteurs ».