ChatGPT, un potentiel parasite pour l'écosystème open source

Que doivent ChatGPT et d'autres grands modèles linguistiques aux créateurs humains qui fournissent les données sur lesquelles ils s'entraînent ? Que se passe-t-il si ces créateurs cessent de rendre leurs connaissances accessibles au public ? Le chroniqueur Matt Asay, revient sur l'engouement autour des LLM et les risques qu'ils représentent pour l'écosystème open source.

Pour Matt Asay, chroniqueur pour nos confrères d'Infoworld, le monde de l’IT est en train de subir une transformation radicale. « Dans la technologie, nous sommes tous, en fin de compte, des parasites » affirme-t-il. Comme l'a dit le fondateur de Drupal, Dries Buytaert, il y a plusieurs années, nous sommes tous plus « récupérateurs » que « créateurs ». Le dirigeant faisait alors référence à une pratique courante dans les communautés open source : « Les preneurs ne contribuent pas de manière significative au projet open source dont ils s'inspirent, ce qui nuit aux projets dont ils dépendent. Même le plus ardent contributeur de l'open source prend plus qu'il ne contribue ». Cette même tendance parasitaire a joué pour Google, Facebook et Twitter - chacun dépendant du contenu des autres - et est sans doute encore plus vraie pour l'IA générative aujourd'hui.

Steve Yegge, développeur chez Sourcegraph, déclare sans ambages : « Les LLM ne sont pas seulement le plus grand changement depuis les réseaux sociaux, le mobile ou le cloud - ils sont la plus grande chose depuis le World Wide Web », et il a probablement raison. Mais ces grands modèles de langage (LLM) sont essentiellement de nature parasitaire : Ils dépendent des dépôts de code (GitHub), des réponses technologiques (Stack Overflow), de la littérature et de bien d'autres choses encore. À l'instar de ce qui s'est passé dans le domaine de l'open source, les créateurs et les agrégateurs de contenu commencent à bloquer l'accès des LLM à leur contenu. À la lumière de la baisse du trafic sur le site, par exemple, Stack Overflow a rejoint Reddit en demandant aux créateurs de LLM de payer pour le droit d'utiliser leurs données afin de former les LLM, comme l'explique Wired. Il s'agit d'une initiative audacieuse, qui rappelle les guerres de licences qui se sont déroulées dans le domaine de l'open source et les paywalls imposés par les éditeurs pour se protéger de Google et de Facebook. Mais cela fonctionnera-t-il ?

La surexploitation des biens communs

Matt Asay est certain que l'histoire des parasites technologiques est antérieure à celle de l'open source. Dès les premiers jours de Linux ou de MySQL, des entreprises ont été créées pour tirer profit des contributions des autres, affirme-t-il. Plus récemment, dans le domaine de Linux, par exemple, Rocky Linux et Alma Linux promettent toutes deux une « compatibilité bogue pour bogue » avec Red Hat Enterprise Linux (RHEL), tout en ne contribuant en rien au succès de Red Hat. En effet, la conclusion naturelle du succès de ces deux clones de RHEL serait d'éliminer leur hôte, ce qui conduirait à leur propre disparition, raison pour laquelle une personne de l'espace Linux les a appelés les « dirtbags » de l'open source.

L'expression est peut-être trop imagée, mais on comprend clairement ce qu'elle veut dire. C'est la même critique qui a été faite à AWS (une critique de « strip-mining » qui perd de sa pertinence chaque jour) et qui a motivé un certain nombre de permutations de licences de sources fermées, de contorsions de business model et de discussions apparemment sans fin sur la durabilité de l'open source. Ce dernier, bien sûr, n'a jamais été aussi fort. Les projets open source individuels, cependant, ont des degrés de santé variables. Certains programmes (et leurs responsables) ont compris comment gérer les « preneurs » au sein de leurs communautés, d'autres non. Toutefois, en tant que tendance, l'open source ne cesse de gagner en importance et en force.

Les LLM : un danger pour des sites comme Stack Overflow

Cela nous amène aux LLM. De grandes entreprises telles que JP Morgan Chase dépensent des milliards de dollars et embauchent plus de 1 000 data scientists, ingénieurs en apprentissage automatique et autres pour générer un impact de plusieurs milliards de dollars dans les domaines de la personnalisation, de l'analyse client, etc. Bien que de nombreuses entreprises aient été réticentes à adopter publiquement des éléments tels que le ChatGPT, la réalité est que leurs développeurs utilisent déjà les LLM pour réaliser des gains de productivité. Le coût de ces bénéfices commence tout juste à apparaître clairement. Il s'agit du coût pour des entreprises comme Stack Overflow, qui ont toujours été à l'origine des gains de productivité. Par exemple, le trafic de Stack Overflow a diminué de 6 % en moyenne chaque mois depuis janvier 2022, et a chuté précipitamment de 13,9 % en mars 2023, comme le détaille Similarweb. Il est probablement trop simpliste de blâmer ChatGPT et d'autres outils pilotés par l'IA générative pour un tel déclin, mais il serait également naïf de penser qu'ils ne sont pas impliqués.

Il suffit de demander à Peter Nixey, fondateur d'Intentional.io et l'un des 2 % d'utilisateurs les plus importants sur StackOverflow, avec des réponses qui ont atteint plus de 1,7 million de développeurs. Malgré sa notoriété sur StackOverflow, Peter Nixey déclare : « Il est peu probable que j'y écrive à nouveau quelque chose ». Pourquoi ? Parce que les LLM comme ChatGPT menacent de vider le réservoir de connaissances de StackOverflow. « Que se passera-t-il lorsque nous cesserons de mettre en commun nos connaissances et que nous les déverserons directement dans la machine ? » demande M. Nixey. Par « la machine », il fait référence aux outils tels que ChatGPT. Il est fantastique d'obtenir des réponses d'un outil d'IA comme Copilot de GitHub, par exemple, qui a été formé sur les dépôts GitHub, les questions-réponses de Stack Overflow, etc. Mais ces questions, posées en privé, ne donnent lieu à aucun dépôt public d'informations, contrairement à Stack Overflow. « Alors que GPT4 a été formé à toutes les questions posées avant 2021 [sur Stack Overflow], sur quoi GPT6 sera-t-il formé ? » s’interroge-t-il.

Des autoroutes de l'information à sens unique

Le problème n'est pas insignifiant, et il pourrait être plus grave que ce que nous avons vu auparavant dans le domaine de l'open source. « Si ce schéma se reproduit ailleurs et que la direction de notre connaissance collective passe de l'extérieur vers l'humanité à l'intérieur vers la machine, alors nous dépendons d'elle d'une manière qui supplante toutes nos dépendances antérieures à l'égard de la machine », suggère Peter Nixey. Le moins que l'on puisse dire, c'est qu'il s'agit là d'un problème. « Comme une variante du Covid-19 à croissance rapide, l'IA deviendra la source dominante de connaissances simplement en raison de sa croissance », souligne-t-il. « Si nous prenons l'exemple de StackOverflow, ce réservoir de connaissances humaines qui nous appartenait pourrait être réduit à un simple poids à l'intérieur du transformateur ».

Les enjeux sont considérables et ne se limitent pas aux énormes quantités d'argent qui continuent d'affluer vers l'IA. Nous devons également faire le point sur la valeur relative des informations générées par des services tels que ChatGPT rappelle Matt Asay. Stack Overflow, par exemple, a interdit les réponses dérivées de ChatGPT en décembre 2022 parce qu'elles étaient riches en texte et pauvres en informations. « Parce que le taux moyen d'obtention de réponses correctes de ChatGPT est trop faible, l'affichage de réponses créées par le chatbot est substantiellement nuisible au site et aux utilisateurs qui demandent et recherchent des réponses correctes » indique la plateforme. Des outils comme ChatGPT ne sont pas conçus pour produire des informations correctes, mais simplement des informations probabilistes qui correspondent à des schémas dans les données. Autrement dit, sans un flux régulier de bonnes données de base, les LLM peuvent simplement se reconstituer avec des informations erronées, devenant ainsi moins utiles.

En guise de conclusion, Matt Asay indique qu’il « ne dénigre pas les promesses des LLM et de l'IA générative en général. Comme dans le cas de l'open source, des éditeurs de presse et autres, nous pouvons être reconnaissants à OpenAI et aux autres entreprises qui nous aident à exploiter les informations produites collectivement, tout en encourageant des contributeurs comme Reddit (lui-même agrégateur de contributions individuelles) à attendre d'être payés pour le rôle qu'ils jouent ». Selon lui, « l’open source a connu ses guerres de licences, et il semble que nous soyons sur le point de vivre quelque chose de similaire dans le monde de l'IA générative, mais avec des conséquences plus importantes ».

Sur le même thème

Partenaires

ChatGPT, un potentiel parasite pour l'écosystème open source

Livres blancs

La surexploitation des biens communs

Les LLM : un danger pour des sites comme Stack Overflow

Des autoroutes de l'information à sens unique

Commentaire

Suivre toute l'actualité

Newsletter

Livres blancs

La surexploitation des biens communs

Les LLM : un danger pour des sites comme Stack Overflow

Des autoroutes de l'information à sens unique

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter