Les sources d’entraînement des LLM sont toujours entourées d’un voile de mystère notamment au regard du droit de propriété intellectuelle. Certaines sociétés se sont spécialisées dans la collecte de résultats des moteurs de recherche, comme SerpApi. Une pratique qui ne plait pas à Google et qui vient de déposer plainte contre elle. Dans un blog, Halimah DeLaine Prado, directrice juridique de Google indique que SerpApi « contourne les mesures de sécurité protégeant le contenu protégé par le droit d'auteur d'autrui qui apparaît dans les résultats de recherche de Google ». Elle ajoute, « c’est la raison pour laquelle nous avons demandé à un tribunal d'interdire les robots de SerpApi et leur collecte malveillante, qui viole les choix des sites web et des détenteurs de droits quant à l'accès à leur contenu »

Même si Google obtient la plupart de ses résultats de recherche en récupérant lui-même les données des sites web, Mme Prado a déclaré que le procès intenté par Google visait spécifiquement l'accès de SerpApi au contenu que Google a sous-licencié ou créé. « SerpApi récupère de manière trompeuse le contenu que Google sous-licencie à des tiers (comme les images qui apparaissent dans les Knowledge Panels, les données en temps réel dans les fonctionnalités de recherche et bien plus encore), puis le revend. Ce faisant, elle ignore délibérément les droits et les directives des sites web et des fournisseurs dont le contenu apparaît dans la recherche », constate-t-elle.

SerpApi se défend

De son côté, SerpApI a nié toute malversation, affirmant qu'il fournissait aux développeurs, chercheurs et entreprises un accès à des données de recherche publiques, soit les mêmes informations que celles accessibles à tous depuis un navigateur. « Nous pensons que cette plainte a pour objectif d’empêcher la concurrence des innovateurs qui s'appuient sur nos services pour développer des applications de dernière génération dans les domaines de l'IA, de la sécurité, des navigateurs, de la productivité et bien d'autres encore », s’est défendue l’entreprise dans un communiqué.

« Comme nous l'indiquons sur notre site web, le crawling et l'analyse des données publiques sont protégés par le premier amendement de la Constitution des États-Unis. Nous travaillons en étroite collaboration avec nos avocats pour nous assurer que nos services sont conformes à toutes les lois applicables, y compris les principes d'utilisation équitable. SerpApi soutient fermement son modèle commercial et se défendra vigoureusement devant les tribunaux. » Google doit être particulièrement préoccupé par l'aide que ses concurrents reçoivent de SerpApi. En août, The Information a rapporté qu'OpenAI et Perplexity étaient des clients de la société.

Fin des passe-droits

Pour certains, cette plainte signe la fin des passe-droits accordés aux fournisseurs en IA. « Le développement de l'IA progresse extrêmement rapidement précisément parce que le cadre juridique régissant l'utilisation du contenu n'est pas clair », a fait remarquer Martin Jeffrey, fondateur du cabinet-conseil Harton Works. « Les entreprises optimisent actuellement la découverte par l'IA plutôt que d'attendre une autorisation ou une clarification, et c'est peut-être la raison pour laquelle Google a réagi ainsi. » Matt Hasan, CEO de l’entreprise de marketing aiResults, est de cet avis. « La période pendant laquelle les développeurs IA pouvaient agir rapidement sans rencontrer beaucoup de résistance de la part des fournisseurs de contenu touche clairement à sa fin. À mesure que les contraintes juridiques et réglementaires se renforcent, il faut s’attendre à un ralentissement des expérimentations, à un développement plus prudent des produits et à une transition vers des stratégies de données défendables, sous licence ou intégrées verticalement. Cela n'empêche pas les progrès de l'IA, mais cela redéfinit qui peut se permettre d'y participer et à quelle vitesse. »

Selon Martin Jeffrey, l'action de Google va certainement aider l'entreprise à poursuivre le développement de sa propre offre d'IA. « Google a pris un peu de retard avec Gemini. Ils le rattrapent maintenant et intègrent Gemini partout », a-t-il déclaré. Ce dernier est curieux de voir ce que Google fera après sa plainte contre SerpApi. Il se demande notamment si, en cas de victoire, le fournisseur s'attaquera à des entreprises plus importantes. « Il semble que Google s’en prenne d’abord aux petits acteurs. C'est un coup de semonce. » Certains signes indiquent déjà que des concurrents de Gemini commencent à être affectés par les progrès de Google sur le marché IA. Début décembre, dans une note de service envoyée aux employés, le CEO d'OpenAI, Sam Altman, avait sonné l’alarme et appelé l’entreprise à concentrer tous ses efforts à améliorer ChatGPT. Le procès intenté contre SerpApi n'est pas la première action de Google pour limiter l’usage de ses données dans l’IA par ses concurrents. En octobre, le moteur de recherche a limité les requêtes à seulement 10 résultats par demande, alors qu'auparavant, il en fournissait jusqu'à 100. Cette mesure a contraint les entreprises qui récupéraient des données sur son site à intensifier considérablement leurs efforts de crawling pour obtenir les mêmes résultats.