Après la presse, les forums ne sont pas immunisés contre la reprise sans autorisation des contenus publiés sur leurs sites. Le plus célèbre d'entre eux Reddit poursuit en Justice Perplexity pour avoir copier illégalement des messages de ses utilisateurs. Il « intente cette action afin de mettre fin au contournement illégal à grande échelle des mesures de protection des données par un groupe d'acteurs malveillants qui ne reculent devant rien pour mettre la main sur les précieux contenus protégés par le droit d'auteur disponibles sur la plateforme », a indiqué la société dans sa plainte déposée mercredi près une cour du district sud de New-York.
Le site d'échanges et de discussions accuse également trois entreprises qui auraient aidé la start-up IA à siphonner les contenus de ses membres. Il s’agit d’Oxylabs (une société lituanienne spécialisée dans le scraping de données), AWMProxy (un service russe de routage de trafic malveillant impliqué dans des campagnes de botnets), et SerpApi (une start-up américaine qui propose une API de scraping web). Sur le site de cette société, basée à Austin au Texas, on peut lire notamment ceci : « SerpApi assume les responsabilités liées au scraping et au parsing pour les entreprises nationales et étrangères, sauf si votre utilisation est illégale. Les activités illégales comprennent, sans s'y limiter : les actes de cybercriminalité, le terrorisme, la pédopornographie, les attaques par déni de service et les crimes ».
Des contenus collectés depuis les pages de résultat de Google
« Perplexity ou ses agents travaillent avec un ou plusieurs des services SerpApi, Oxylabs et AWMProxy afin de contourner les mesures de contrôle technologiques protégeant le contenu de Reddit et de récupérer en masse le contenu de Reddit à partir des SERP de Google », indique le forum dans sa plainte. Pour confirmer cette hypothèse, il indique avoir créé un message test qui ne pouvait être parcouru que par le moteur de recherche Google et n'était accessible nulle part ailleurs sur Internet. « En quelques heures, les requêtes adressées au moteur de réponse de Perplexity ont produit le contenu de ce message test. La seule façon dont ce dernier aurait pu obtenir ce contenu Reddit et l'utiliser ensuite dans son moteur de réponse est que Perplexity et/ou ses co-défendeurs aient récupéré ce contenu Reddit à partir des SERP (page de résultats) de Google, puis que Perplexity ait rapidement intégré ces données dans son moteur de réponse », glisse Reddit.
« Les scrapers contournent les protections technologiques pour voler des données, puis les vendent à des clients avides de contenus à des fins d’entrainement. Reddit est une cible de choix, car il s'agit de l'une des collections de conversations les plus importantes et les plus dynamiques jamais créées », a fait savoir Ben Lee, directeur juridique de Reddit dans une déclaration reprise par Associated Press.
Anthropic déjà dans le viseur de Reddit
Il s'agit de la deuxième action en justice intentée par Reddit depuis qu'il a poursuivi en justice Anthropic en juin dernier. En février 2025, Thomson Reuters avait par ailleurs aussi fait condamner l’entreprise Ross Intelligence ouvrant la voie à des indemnisations des ayants droits. Celle-ci était accusée de s’être servie sans autorisation de la plateforme de recherche juridique de Thomson Reuters nommée Westlaw pour entraîner son modèle d’IA. Reddit n’est pas toujours en guerre avec les sociétés d’IA et des accords ont aussi pu être trouvés avec d’autres entreprises. En 2024, le site communautaire avait signé avec OpenAI pour utiliser ses contenus et s’en servir pour former ChatGPT. Concernant Perplexity, si un accord avait été trouvé avec Le Monde, ce n'était pas le cas avec The Financial Times Japon et le Nikkei, The Wall Street Journal et The New York Post ou encore Encyclopedia Britannica.