La question de l'origine des données utilisée pour entraîner les modèles d'IA générative revient régulièrement dans les discussions avec les responsables IT. Problème de sécurité, de confidentialité, de respect des licences sont autant d'interrogations posées. Des experts en machine learning et en droit du MIT, Cohere et 11 autres organisations parmi lesquels la Harvard Law School, l'université Carnegie Mellon et Apple, ont élaboré un outil baptisé Data Provenance Explorer.

Il offre aux chercheurs, aux journalistes et à toute autre personne d'effectuer des recherches dans des milliers de bases de données d'entraînement de l'IA et de retracer la « généalogie » des ensembles de données les plus utilisés. L'idée est de fournir un moyen d'explorer le monde parfois flou des données d'entraînement utilisées pour développer l'IA générative. Dans une déclaration officielle annonçant Data Provenance Explorer, l'équipe qui en est à l'origine, fait état d’une « crise de la transparence des données » qui pourrait compliquer le développement et l'utilisation commerciale des systèmes d'IA générative.

Défaut de licences des données issues du crowdsourcing

« Les agrégateurs de données partagées comme GitHub, Papers with Code et de nombreux grands modèles de langage (LLM) en libre accès, formés à partir des données de ces agrégateurs, affichent un pourcentage extrêmement élevé de données sans licences... qui va de 72 % à 83 % », a déclaré le groupe. « De plus, les licences attribuées par les agrégateurs populaires autorisent souvent une utilisation plus large que l'intention initiale exprimée par les auteurs d'un dataset ». Selon Kathy Lange, directrice de recherche chez IDC, « l'industrie semble tout à fait consciente de la nécessité de développer l'IA de manière responsable. La course effrénée au déploiement de l'IA générative a amené le public à s'intéresser à l'utilisation sûre et légale des données », a-t-elle déclaré. « Comprendre la provenance des données, la manière dont elles ont été collectées, traitées et transformées peut avoir un impact sur la confiance dans les résultats des modèles d'IA », a ajouté la consultante.

« Les fournisseurs d'IA qui accordent la priorité à l'origine des données disposeront d’un avantage sur le marché, pour les clients qui exigent de la transparence, de la responsabilité et des initiatives de conformité. À certains égards, les données d'IA sont devenues rien de moins qu'un champ de bataille. Kathy Lange a rappelé la disponibilité récente de l'outil Nightshade, qui modifie subtilement l'art numérique de manière à confondre les créateurs d'IA qui tentent d'utiliser des œuvres protégées par le droit d'auteur comme données d'entraînement. De plus, les auteurs et autres détenteurs de droits d'auteur ont commencé à intenter des actions en justice contre l'utilisation de leurs œuvres dans la formation de l’IA générative. La comédienne et auteure Sarah Silverman fait partie de ceux qui poursuivent OpenAI pour ce motif. Reste que, pour l’instant, le paysage juridique de ces plaintes reste obscur à bien des égards.