L'IA générative ou GenAI est un type d'intelligence artificielle qui crée des contenus, notamment des textes, des images, des sons et des vidéos, sur la base de modèles formés à partir de contenus existants. Les modèles d'IA générative d'aujourd'hui ont été entraînés sur d'énormes volumes de données à l'aide de l'apprentissage profond, ou réseaux neuronaux profonds, et ils peuvent tenir des conversations, répondre à des questions, écrire des histoires, produire du code source et créer des images et des vidéos de toute description, le tout sur la base de brèves entrées de texte ou de « messages-guides ». La GenAI est appelée générative parce qu'elle crée quelque chose qui n'existait pas auparavant. C'est ce qui la différencie de l'IA discriminante, qui établit des distinctions entre différents types de données. En d'autres termes, l'IA discriminative tente de répondre à une question telle que « Cette image représente-t-elle un lapin ou un lion ? », alors que l'IA générative répond à des questions telles que « Dessine-moi un lion et un lapin assis l'un à côté de l'autre ».
Cet article vous présente l'IA générative et ses utilisations avec des modèles populaires tels que ChatGPT, Gemini, Dall-E, ou encore Midjourney. Nous examinerons également les limites de la technologie, et notamment la raison pour laquelle trop de doigts (dans une main) est devenus une indication fatale pour les images générées artificiellement.
L'émergence de l'IA générative
L'IA générative existe depuis des années, sans doute depuis qu'Eliza, un chatbot qui simule une conversation avec un thérapeute, a été mis au point au MIT en 1966. Mais des années de travail sur l'IA et l'apprentissage automatique ont récemment porté leurs fruits avec la sortie de nouveaux systèmes d'IA générative. Vous avez certainement entendu parler de ChatGPT, un chatbot d'IA basé sur le texte qui produit une prose remarquablement humaine. Dall-E et Stable Diffusion ont également attiré l'attention pour leur capacité à créer des images vibrantes et réalistes à partir d'invites textuelles.
Les résultats de ces systèmes sont si étranges qu'ils amènent de nombreuses personnes à se poser des questions philosophiques sur la nature de la conscience et à s'inquiéter de l'impact économique de l'IA générative sur les emplois humains. Mais si toutes ces créations d'intelligence artificielle font indéniablement la une de l'actualité, il se passe sans doute moins de choses sous la surface que certains ne le supposent. Nous aborderons certaines de ces questions d'ordre général dans un instant. Tout d'abord, voyons ce qui se passe sous le capot.
Comment fonctionne l'IA générative ?
L'IA générative utilise l'apprentissage automatique (machine learning) pour traiter une grande quantité de données visuelles ou textuelles, dont la plupart sont extraites de l'Internet, et détermine ensuite quels éléments sont les plus susceptibles d'apparaître à proximité d'autres éléments. Rappelons que le machine learning consiste à laisser des algorithmes découvrir des « patterns », à savoir des motifs récurrents, dans les ensembles de données. Une grande partie du travail de programmation de l'IA générative consiste à créer des algorithmes capables de distinguer les « choses » qui intéressent les créateurs de l'IA - des mots et des phrases dans le cas de chatbots comme ChatGPT, ou des éléments visuels pour Dall-E. Mais fondamentalement, l'IA générative crée ses résultats en évaluant un énorme corpus de données, puis en répondant à des invites par quelque chose qui se situe dans le domaine de la probabilité statistique tel qu'il est déterminé par ce corpus.
L'autocomplétion - lorsque votre téléphone portable ou Gmail vous suggère ce que pourrait être le reste du mot ou de la phrase que vous êtes en train de taper - est une forme d'IA générative de bas niveau. ChatGPT et Dall-E portent l'idée à un niveau nettement plus avancé.
Qu'est-ce qu'un modèle d'IA ?
ChatGPT et Dall-E sont des interfaces avec des fonctionnalités sous-jacentes de l'IA, appelées « modèles » dans le jargon de l'IA. Un modèle d'IA est une représentation mathématique - mise en œuvre sous la forme d'un algorithme ou d'une pratique - qui génère des données qui ressembleront (espérons-le) à un ensemble de données dont vous disposez déjà. Vous verrez parfois ChatGPT et Dall-E eux-mêmes désignés comme des modèles ; à proprement parler, c'est incorrect, car ChatGPT est un chatbot qui donne aux utilisateurs l'accès à plusieurs versions différentes du modèle GPT sous-jacent. Mais dans la pratique, ces interfaces sont la manière dont la plupart des gens interagissent avec les modèles, et il ne faut donc pas s'étonner de voir ces termes utilisés de manière interchangeable. Les développeurs d'IA rassemblent un corpus de données du type de celles qu'ils veulent que leurs modèles génèrent. Ce corpus est connu sous le nom d'ensemble d'entraînement du modèle, et le processus de développement du modèle s'appelle l'entraînement. Les modèles GPT, par exemple, ont été formés sur un énorme corpus de textes récupérés sur l'Internet, ce qui leur permet de répondre à des requêtes en langage naturel dans un anglais idiomatique (ou dans un certain nombre d'autres langues dont le français, en fonction de l'entrée).
Les modèles d'IA traitent les différentes caractéristiques des données de leurs ensembles d'apprentissage comme des vecteurs, c'est-à-dire des structures mathématiques composées de plusieurs nombres. Une grande partie de la sauce secrète qui sous-tend ces modèles réside dans leur capacité à traduire les informations du monde réel en vecteurs de manière significative, et à déterminer quels vecteurs sont similaires les uns aux autres de manière à permettre au modèle de générer des résultats qui sont similaires, mais pas identiques, à son ensemble d'apprentissage. Il existe un certain nombre de types de modèles d'IA, mais il faut garder à l'esprit que les différentes catégories ne s'excluent pas nécessairement l'une l'autre. Certains modèles peuvent entrer dans plus d'une catégorie.
Les LLM se multiplient
Le type de modèle d'IA qui retient le plus l'attention du public aujourd'hui est probablement celui des grands modèles de langage, ou LLM (GPT, Claude, Gemini, Llama 2, Mixtral, Cohere Command, Jurassic et AI21 Wordspice). Les LLM sont basés sur le concept de transformeur, présenté pour la première fois dans « Attention Is All You Need », un article publié en 2017 par des chercheurs de Google. Un transformeur déduit le sens de longues séquences de texte pour comprendre comment différents mots ou composants sémantiques peuvent être liés les uns aux autres, puis détermine la probabilité qu'ils se produisent à proximité les uns des autres. Les modèles GPT sont des LLM, et le T signifie transformeur. Ce dernier est exécuté de manière non supervisée sur un vaste corpus de textes en langue naturelle dans le cadre d'un processus appelé pré-entraînement (c'est le P de GPT), avant d'être affiné par des êtres humains interagissant avec le modèle. La diffusion est couramment utilisée dans les modèles d'IA générative qui produisent des images ou des vidéos. Dans le processus de diffusion, le modèle ajoute du parasitage (aléatoire, en fait) à une image, puis l'enlève lentement de manière itérative, tout en se référant à son ensemble d'apprentissage pour tenter de faire correspondre des images sémantiquement similaires. La diffusion est au cœur des modèles d'IA qui réalisent la magie de la conversion texte-image, comme Stable Diffusion et Dall-E.
Un réseau antagoniste génératif, ou GAN en anglais (Generative adversarial network), est basé sur un type d'apprentissage par renforcement (l'ensemble des méthodes qui permettent à un agent d'apprendre à choisir quelle action prendre, et ceci de manière autonome), dans lequel deux algorithmes sont en concurrence l'un avec l'autre. L'un génère du texte ou des images sur la base de probabilités dérivées d'un ensemble de données. L'autre - une IA discriminante - évalue si ce résultat est réel ou généré par l'IA. L'IA générative tente à plusieurs reprises de « tromper » l'IA discriminante, en s'adaptant automatiquement pour favoriser les résultats qui réussissent. Lorsque l'IA générative « gagne » systématiquement cette compétition, l'IA discriminante est affinée par les humains et le processus recommence. L'une des choses les plus importantes à garder à l'esprit ici est que, bien qu'il y ait une intervention humaine dans le processus de formation, la majeure partie de l'apprentissage et de l'adaptation se fait automatiquement. De très nombreuses itérations sont nécessaires pour que les modèles produisent des résultats intéressants, c'est pourquoi l'automatisation est essentielle. Le processus est très intensif en termes de calcul, et l'explosion récente des capacités de l'IA est due en grande partie aux progrès de la puissance de calcul des GPU et aux techniques de mise en œuvre du traitement parallèle sur ces puces.
L'IA générative est-elle douée de sensations ?
Les mathématiques et le codage nécessaires à la création et à l'entraînement des modèles d'IA générative sont très complexes et dépassent largement le cadre de cet article. Mais si vous interagissez avec les modèles qui sont le résultat final de ce processus, l'expérience peut être résolument troublante. Vous pouvez demander à Dall-E de produire des objets qui ressemblent à de véritables œuvres d'art. Vous pouvez avoir des conversations avec ChatGPT qui ressemblent à une discussion avec un autre être humain. Les chercheurs ont-ils vraiment créé une machine à penser ?
Chris Phipps, ancien responsable du traitement du langage naturel chez IBM, qui a travaillé sur les produits d'IA Watson, répond par la négative. Il décrit ChatGPT comme une « très bonne machine à prédire ». Elle est très douée pour prédire ce que les humains trouveront cohérent. Ce n'est pas toujours cohérent (la plupart du temps, ça l'est), mais ce n'est pas parce que ChatGPT « comprend ». C'est l'inverse : les humains qui consomment les résultats sont très doués pour faire toutes les suppositions implicites dont nous avons besoin pour que les résultats aient un sens. M. Phipps, qui est également comédien, établit une comparaison avec un jeu d'improvisation courant appelé Mind Meld. Deux personnes pensent chacune à un mot, puis le prononcent simultanément à haute voix - vous pourriez dire « botte » et moi « arbre ». Nous avons trouvé ces mots de manière totalement indépendante et, au début, ils n'avaient rien à voir l'un avec l'autre. Les deux participants suivants prennent ces deux mots et essaient de trouver quelque chose qu'ils ont en commun et le disent à haute voix en même temps. Le jeu continue jusqu'à ce que deux participants disent le même mot. Peut-être que deux personnes disent toutes les deux « bûcheron ». Cela semble magique, mais en réalité, nous utilisons notre cerveau humain pour raisonner sur les données (« botte » et « arbre ») et trouver un lien. C'est nous qui faisons le travail de compréhension, pas la machine. C'est beaucoup plus le cas avec ChatGPT et Dall-E que les gens ne l'admettent. ChatGPT peut écrire une histoire, mais c'est nous, les humains, qui faisons tout le travail pour qu'elle ait un sens.
Tester les limites de l'intelligence informatique
Certaines questions que nous pouvons poser à ces modèles d'IA rendront l'argument de M. Phipps assez évident. Prenons par exemple l'énigme suivante : « Qu'est-ce qui pèse le plus lourd, une livre de plomb ou une livre de plumes ? » La réponse, bien sûr, est qu'ils pèsent le même poids (une livre), même si notre instinct ou notre bon sens nous dit que les plumes sont plus légères. ChatGPT répondra correctement à cette énigme, et vous pourriez supposer qu'il le fait parce que c'est un ordinateur froidement logique qui n'a pas de « bon sens » pour le faire trébucher. Mais ce n'est pas ce qui se passe sous le capot. ChatGPT ne raisonne pas logiquement sur la réponse ; il génère simplement des résultats basés sur ses prédictions de ce qui devrait suivre une question sur une livre de plumes et une livre de plomb. Comme son jeu d'entraînement comprend un ensemble de textes expliquant l'énigme, il assemble une version de la bonne réponse.
Cependant, si vous demandez à ChatGPT si deux livres de plumes sont plus lourdes qu'une livre de plomb, il vous répondra en toute confiance qu'elles pèsent le même poids, car c'est toujours la réponse la plus probable à une question sur les plumes et le plomb, d'après son ensemble d'apprentissage. Il peut être amusant de dire à l'IA qu'elle se trompe et de la voir se débattre en réponse ; j'ai réussi à ce qu'elle s'excuse pour son erreur et suggère ensuite que deux livres de plumes pèsent quatre fois plus qu'une livre de plomb.
Pourquoi une image générée par IA a-t-il trop de doigts ?
L'une des particularités des images générées par l'IA est qu'il représente souvent des personnes avec des mains ou des yeux très bizarres. Cette bizarrerie est en train de devenir un indicateur courant du fait qu’une image a été générée artificiellement. Cette bizarrerie permet de mieux comprendre comment l'IA générative fonctionne (et ne fonctionne pas). Commençons par le corpus dont s'inspirent Dall-E et les outils d'IA générative visuelle similaires : les photos de personnes permettent généralement de bien voir leur visage, mais leurs mains sont souvent partiellement masquées ou présentées sous des angles bizarres, de sorte qu'il est impossible de voir tous les doigts à la fois. Ajoutez à cela le fait que les mains ont une structure complexe et qu'il est notoirement difficile de les dessiner, même pour des artistes chevronnés. Une chose que Dall-E ne fait pas, c'est d'assembler un modèle 3D élaboré de mains à partir des diverses représentations 2D de son jeu d'entraînement. Ce n'est pas ainsi qu'il fonctionne. Dall-E ne sait même pas nécessairement que les « mains » constituent une catégorie cohérente de choses sur lesquelles on peut raisonner. Tout ce qu'il peut faire, c'est essayer de prédire, sur la base des images dont il dispose, à quoi pourrait ressembler une image similaire. Malgré d'énormes quantités de données d'entraînement, ces prédictions sont souvent insuffisantes.
M. Phipps suppose que l'un des facteurs est le manque de données négatives. Pour autant que je sache, il s'entraîne principalement à partir d'exemples positifs. On ne lui a pas donné l'image d'une main à sept doigts en lui disant : « Non ! Mauvais exemple de main, ne fais pas ça ». Ne fais pas ça ». Il prédit donc l'espace du possible, et non l'espace de l'impossible. En fait, on ne lui a jamais dit de ne pas créer une main à sept doigts. Il faut également tenir compte du fait que ces modèles ne considèrent pas les dessins qu'ils réalisent comme un tout cohérent ; ils assemblent plutôt une série d'éléments susceptibles de se trouver à proximité les uns des autres, comme le montrent les données d'entraînement. Dall-E ne sait peut-être pas qu'une main est censée avoir cinq doigts, mais il sait qu'un doigt est susceptible d'être immédiatement adjacent à un autre doigt. C'est pourquoi, parfois, il continue à ajouter des doigts. (En fait, même cette description du processus de Dall-E l'anthropomorphise probablement trop ; comme le dit M. Phipps, « je doute qu'il ait même la compréhension d'un doigt. Il est plus probable qu'il prédise la couleur des pixels, et les pixels de la couleur d'un doigt ont tendance à se trouver à côté d'autres pixels de la couleur d'un doigt ».
Impacts négatifs potentiels de l'IA générative
Ces exemples illustrent l'une des principales limites de l'IA générative : ce que les acteurs du secteur appellent des hallucinations, un terme peut-être trompeur pour désigner des résultats qui sont, selon les normes des humains qui les utilisent, faux ou incorrects. Tous les systèmes informatiques produisent occasionnellement des erreurs, bien sûr, mais ces dernières sont particulièrement problématiques quand les utilisateurs finaux ont peu de chances de les repérer facilement : si vous posez une question à un chatbot d'IA de production, vous ne connaissez généralement pas la réponse vous-même. Il est également plus probable que vous acceptiez une réponse fournie dans la prose confiante et totalement idiomatique que ChatGPT et d'autres modèles comme lui produisent, même si l'information est incorrecte.
Même si une IA générative pouvait produire des résultats exempts d'hallucinations, il y aurait plusieurs conséquences négatives potentielles :
- Création de contenu facile et bon marché : J'espère qu'il est clair maintenant que ChatGPT et d'autres IA génératives ne sont pas de véritables esprits capables de produire des œuvres créatives ou de faire preuve de perspicacité. Mais la vérité est que tout ce qui est écrit ou dessiné n'a pas besoin d'être particulièrement créatif. De nombreux travaux de recherche au niveau du lycée ou de l'université ne visent qu'à synthétiser des données accessibles au public, ce qui en fait une cible parfaite pour l'IA générative. Et le fait que la prose ou l'art artificiel puissent désormais être produits automatiquement, à une échelle surhumaine, peut avoir des résultats étranges ou imprévus. Les spécialistes du spam utilisent déjà le ChatGPT pour écrire des courriels d'hameçonnage, par exemple.
- Propriété intellectuelle : À qui appartient une image ou un texte généré par l'IA ? Si une œuvre protégée par le droit d'auteur fait partie de l'ensemble d'apprentissage d'une IA, l'IA « plagie »-t-elle cette œuvre lorsqu'elle génère des données synthétiques, même si elle ne la copie pas mot pour mot ? Il s'agit là de questions juridiques épineuses et non vérifiées.
- Biais : le contenu produit par l'IA générative est entièrement déterminé par les données sous-jacentes sur lesquelles elle est entraînée. Comme ces données sont produites par des humains avec tous leurs défauts et leurs préjugés, les résultats générés peuvent également être imparfaits et biaisés, en particulier s'ils fonctionnent sans garde-fou humain. OpenAI, l'entreprise qui a créé ChatGPT, a mis en place des mesures de protection dans le modèle avant de l'ouvrir à l'utilisation publique, l'empêchant de faire des choses comme utiliser des insultes raciales ; cependant, d'autres ont affirmé que ces mesures de sécurité représentent leur propre type de biais.
- Consommation d'énergie : Outre les questions philosophiques épineuses, l'IA générative soulève des problèmes très pratiques : d'une part, l'entraînement d'un modèle d'IA générative est extrêmement gourmand en ressources informatiques (GPU notamment). Les entreprises qui tentent de se lancer dans ce domaine risquent donc d'être confrontées à de lourdes factures d'informatique et se demandent si l'augmentation de la consommation d'énergie - et, en fin de compte, des émissions de gaz à effet de serre - est justifiée par le résultat final. (Cette question se pose également pour les crypto-actifs et la technologie blockchain).
Cas d'utilisation de l'IA générative
Malgré ces problèmes potentiels, il est difficile de ne pas voir les promesses de l'IA générative. La capacité de ChatGPT à extraire des informations utiles à partir d'énormes ensembles de données en réponse à des requêtes en langage naturel fait saliver les géants de la recherche. Mais M. Phipps pense que les types de recherche plus spécialisés conviennent parfaitement à cette technologie. « L'un de mes derniers clients chez IBM était une grande société de transport maritime international qui possédait également une activité annexe de conseil en chaîne d'approvisionnement d'un milliard de dollars », explique-t-il.
Leur problème était qu'ils ne pouvaient pas embaucher et former des consultants débutants en chaîne d'approvisionnement assez rapidement - ils perdaient des marchés parce qu'ils ne pouvaient pas répondre rapidement aux questions simples des clients. Nous avons créé un chatbot pour aider les consultants débutants à rechercher dans la vaste bibliothèque de l'entreprise des manuels et des présentations sur la chaîne d'approvisionnement qu'ils pourraient remettre au client. Si je devais construire une solution pour ce même client aujourd'hui, juste un an après avoir construit la première solution, j'utiliserais à 100% ChatGPT et elle serait probablement bien supérieure à celle que j'ai construite. Ce qui est bien dans ce cas d'utilisation, c'est qu'il y a toujours un expert humain dans la boucle qui vérifie la réponse. Cela permet d'atténuer une grande partie des problèmes éthiques. Il existe un marché énorme pour ce type d'outils de recherche intelligents destinés aux experts.
Parmi les autres cas d'utilisation possibles, citons
La génération de code : L'idée que l'IA générative puisse écrire du code informatique à notre place est à l'étude depuis des années. Il s'avère que les grands modèles de langage comme ChatGPT peuvent comprendre les langages de programmation aussi bien que les langues parlées naturelles, et même si l'IA générative ne remplacera probablement pas les programmeurs dans un avenir immédiat, elle peut contribuer à accroître leur productivité.
Création de contenu facile et bon marché : Bien qu'il s'agisse d'une préoccupation (énumérée ci-dessus), il s'agit également d'une opportunité. L'IA qui écrit des courriels de spam peut aussi écrire des courriels de marketing légitimes, et on assiste à une explosion des start-ups spécialisées dans la rédaction de textes à l'aide de l'IA. La GenAI s'épanouit lorsqu'il s'agit de formes de prose très structurées qui ne requièrent pas beaucoup de créativité, comme les CV et les lettres de motivation.
Conception technique : L'art visuel et le langage naturel ont suscité beaucoup d'intérêt dans l'espace de l'IA générative parce qu'ils sont faciles à comprendre pour le commun des mortels. Mais des techniques similaires sont utilisées pour concevoir toutes sortes de choses, des micropuces aux médicaments, et il est presque certain qu'elles entreront bientôt dans l'espace de conception de l'architecture informatique.
Conclusion
L'IA générative ne manquera pas de perturber certaines industries et de modifier, voire de supprimer, de nombreux emplois. Des articles comme celui-ci continueront toutefois d'être rédigés par des êtres humains, du moins pour l'instant. CNET a récemment essayé de mettre l'IA générative au service de la rédaction d'articles, mais l'effort a échoué à cause d'une vague d'hallucinations. Si vous êtes inquiet, vous devriez peut-être vous lancer dans le nouveau métier en vogue de demain : Ingénierie des requêtes IA, un ingénieur chargé de trouver les meilleures manières de parler avec une IA, de lui proposer les meilleures requêtes pour qu'ensuite cette même IA fournisse la meilleure réponse possible.