Alors que les créateurs et les détenteurs de droits d’auteur se disputent avec les entreprises d'IA générative sur l’usage de leurs données pour l'entraînement des systèmes de GenIA, une entreprise, Fairly Trained propose des certifications à celles qui entraînent leurs modèles d'IA générative sur des données « consenties ». « Les consommateurs ont le droit de savoir quelles sociétés accordent de l’importance au consentement du créateur. Nous certifions donc les entreprises d'IA qui n'utilisent pas d'œuvres protégées par le droit d'auteur sans licence », indique Fairly Trained sur sa page d'accueil.

Ed-Newton Rex, le fondateur et CEO de Fairly Trained, était auparavant vice-président chargé de l'audio de Stability AI. Selon un article de Bloomberg, il a quitté la start-up après avoir exprimé des inquiétudes quant à l'utilisation de données relatives aux droits d'auteur pour l'entraînement des systèmes d'IA générative. Parmi les conseillers de Fairly Trained figurent Tom Gruber, co-fondateur et directeur technique de Siri, et Maria Pallante, présidente et CEO de l'Association of American Publishers. Actuellement, l'entreprise propose une seule certification, qu'elle a baptisée « L Certification » ou « Licensed Model Certification ». Cette licence peut être obtenue par tout fournisseur de système d'IA générative qui a utilisé des données « consenties » pour entraîner ses systèmes.

Exigences pour la certification de modèle sous licence

Pour obtenir la certification, l'entreprise qui s'y inscrit doit s'assurer que toutes les données d'entraînement remplissent certaines conditions préalables. Tout d'abord, elles doivent être fournies au développeur du modèle pour être utilisées comme données de formation conformément à un accord contractuel avec les ayant droits ou leurs représentants. Ensuite, les données utilisées pour l’entraînement doivent être disponibles sous une licence ouverte pour un usage approprié, se trouver dans le domaine public à l'échelle mondiale ou appartenir entièrement au concepteur du modèle.

« L'obtention d'une licence auprès d'une organisation qui octroie elle-même des licences aux créateurs (par exemple, une maison de disques ou une bibliothèque d'images) est considérée comme un consentement à des fins de certification », a déclaré l'entreprise sur son portail. Tous les modèles utilisés pour générer des données synthétiques afin d'entraîner des systèmes d'IA génératifs doivent aussi suivre les mêmes protocoles. Pour obtenir la certification, les sociétés doivent mettre en place un processus solide de due diligence en matière de données et conserver les données d'entraînement utilisées pour chaque modèle.

Processus de certification, frais et annulation

Toute entreprise fournissant des systèmes d'IA générative ou de grands modèles de langage (LLM) peut entamer le processus de candidature en remplissant un court formulaire en ligne, après quoi Fairly Trained prend contact avec elle pour l'accompagner dans le processus de soumission. « Quand une société nous envoie sa soumission écrite, elle paye les frais de soumission. Ensuite, la soumission est examinée, après une demande éventuelle d’informations supplémentaires de notre part », explique encore la jeune structure.

Si la demande est acceptée, le demandeur doit payer des frais de certification annuels, qui vont de 500 à 6 000 dollars selon son chiffre d'affaires, avant que le certificat ne lui soit délivré. Fairly Trained prévient par ailleurs que si une entreprise, ayant déjà reçu le certificat, modifie ses pratiques en matière de données de formation qui sont contraires à ses règles ou à ses catégories, sa certification sera annulée. « Nous nous réservons le droit de retirer la certification sans remboursement si de nouvelles informations concernant les pratiques en matière d'IA venaient à être connues et modifiaient le résultat de la certification », a déclaré l'entreprise sur son portail. Jusqu'à présent, huit startups ont été certifiées par Fairly Trained.