Entraîner l'IA avec des contenus protégés est indispensable, selon OpenAI

IA et droit d'auteur ne font pas bon ménage, au moins sur le plan juridique. Dans un rapport, OpenAI a néanmoins indiqué qu'il serait impossible d'entraîner les systèmes d'IA sans accéder à des contenus protégés. Pas de quoi empêcher les ayants-droit de multiplier les procédures contre la start-up.

Les contentieux opposant les fournisseurs de solutions d’IA générative et les ayant-droits de contenus protégés par des droits d’auteur ne cessent de croître. Et pourtant, OpenAI juge que la création des outils d’IA générative est irréalisable sans l'utilisation de ces contenus pour les former. Dans un rapport présenté au House of Lords Communications and Digital Select Committee, la start- up affirme qu'il serait impossible de former de grands modèles de langage (LLM) comme GPT-4, la technologie sous-jacente de ChatGPT, sans recourir à des contenus protégés. « Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, les bouts de code logiciel et les documents gouvernementaux - il serait impossible d'entraîner les meilleurs modèles d'IA actuels sans utiliser des documents protégés par le droit d'auteur »

Les applications GenAI comme ChatGPT ou l'outil de génération d'images Stable Diffusion sont construites à partir de vastes quantités de données collectées sur Internet, dont la plupart sont couvertes par des droits de propriété intellectuelle. Cette situation a suscité une levée de boucliers de la part des éditeurs et des auteurs, qui affirment que leur travail est utilisé sans crédit ni compensation.

Inquiétudes sur le code protégé par le droit d'auteur

« Cela fait des décennies que les développeurs utilisent des ressources comme Google et StackOverflow », a déclaré Daniel Li, CEO de Plus Docs, une entreprise dont le logiciel utilise la genAI pour concevoir, créer et éditer des présentations. Selon lui, ChatGPT facilite simplement un peu plus l'utilisation du codage. « Il faut garder à l’esprit le fait que les développeurs doivent toujours comprendre leur code. ChatGPT ne change rien à cette exigence », a-t-il ajouté. Le dirigeant reconnaît que « les entreprises doivent faire très attention à ne pas utiliser de code ou d'autres textes protégés par des droits d'auteur ». Et il rappelle que « c’est déjà un sujet majeur dans les acquisitions de logiciels pour les grandes entreprises technologiques, et ce sujet ne fera que gagner en importance ».

La position d'OpenAI intervient alors que l'entreprise est confrontée à une série d'actions en justice. La semaine dernière, le New York Times a déposé une plainte contre OpenAI et Microsoft, investisseur important d’OpenAI et utilisateur de ses outils dans divers produits Microsoft. Dans cette plainte, le New York Times accuse kes deux entreprises d’utiliser illégalement ses contenus pour créer des outils d'OpenAI. En réponse, la start-up a fait valoir que la loi sur le droit d'auteur n'interdisait pas l'entraînement des modèles de genAI.

L’an dernier, OpenAI a fait l'objet d'un recours collectif fédéral en Californie, les plaignants accusant l’entreprise d'utiliser illégalement des données personnelles pour entraîner ses modèles. Ce procès, intenté dans le district nord de la Californie, faisait état de 15 violations, dont le computer fraud and abuse act et l’electronic communications privacy Act, et à diverses lois sur les droits des consommateurs au niveau des États. Le motif invoqué, au cœur de la plainte déposée en Californie, est qu'OpenAI a « collecté illégalement » les données privées des plaignants et les a utilisées sans fournir de compensation. Selon la plainte, « OpenAI a utilisé ces données détournées pour affiner et faire progresser ChatGPT grâce à des modèles de langage étendus et à des algorithmes de langage avancés, lui permettant de produire et de comprendre un langage proche de celui d'un humain, une capacité pouvant s’appliquer à une multitude d’usages ».

Toujours plus de plaintes

L'affaire californienne s'inscrit dans le cadre d’une bataille juridique de plus en plus active visant à limiter la collecte effrénée de données par les outils d'IA générative. Un groupe d'auteurs a intenté une action collective contre OpenAI et Microsoft, accusant les deux entreprises de violer les droits d'auteur des auteurs en utilisant leurs écrits et leurs travaux universitaires pour former ChatGPT sans autorisation. Le principal plaignant est Julian Sancton, auteur de l’ouvrage « Cauchemar en Antarctique : Le voyage de la Belgica dans la nuit polaire » (« Madhouse at the End of the Earth: The Belgica's Journey Into the Dark Antarctic »).

Dans cette affaire, OpenAI et Microsoft sont accusés d'avoir ignoré de manière flagrante les lois sur le droit d'auteur pour créer « une entreprise de plusieurs milliards de dollars en utilisant sans autorisation les œuvres collectives de l'humanité ». Au lieu de rémunérer la propriété intellectuelle, « ils agissent comme si les lois sur le droit d'auteur n'existaient pas ». John Licato, professeur adjoint en Computer Science et Engineering à l'Université de Floride du Sud, estime que la position d'OpenAI pourrait se traduire par le non-respect des droits d'auteur. « La frontière entre l'adaptation d'idées existantes et la création de quelque chose de véritablement nouveau est déjà floue, et l'IA nous oblige à voir à quel point cette distinction est mal définie », a déclaré John Licato.

Sur le même thème

Partenaires

Entraîner l'IA avec des contenus protégés est indispensable, selon OpenAI

Inquiétudes sur le code protégé par le droit d'auteur

Toujours plus de plaintes

Commentaire

Suivre toute l'actualité

Newsletter

Inquiétudes sur le code protégé par le droit d'auteur

Toujours plus de plaintes

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter