Le battage médiatique et l'émerveillement suscités par l'IA générative se sont quelque peu atténués. Les grands modèles de langage « généralistes » tels que GPT-4, Gemini (anciennement Bard) et Llama produisent des phrases intelligentes, mais leur faible expertise de domaines spécifiques, leurs hallucinations, leur manque d'intelligence émotionnelle et leur ignorance de l'actualité peuvent conduire à de terribles surprises. En réalité, l'IA générative a dépassé nos attentes... jusqu'à ce que nous ayons besoin qu'elle soit fiable, et pas seulement amusante.

En réponse, des LLM spécifiques à un domaine ont vu le jour, dans le but de fournir des réponses plus crédibles. Parmi ces LLM « spécialistes », citons LEGAL-BERT pour le droit, BloombergGPT pour la finance et Med-PaLM de Google Research pour la médecine. La question qui reste ouverte est de savoir comment créer et déployer au mieux ces LLM spécialisés. La réponse pourrait avoir des ramifications pour le secteur de l'IA générative tout entier, un domaine qui, jusqu'à présent, est riche en valorisations élevées, mais pauvre en bénéfices en raison des coûts monumentaux liés au développement de LLM généralistes ou spécialisés.

Pour spécialiser les LLM, les développeurs d'IA s'appuient souvent sur deux techniques clés : le fine-tuning et la génération augmentée par récupération (RAG ou Retrieval-augmented generation). Mais chacune de ces techniques présente des limites qui ont rendu difficile le développement de LLM spécialisés à un coût raisonnable. Cependant, ces limitations ont aussi permis de mettre au point de nouvelles techniques qui pourraient changer la façon dont nous spécialisons les LLM dans un avenir proche.

La spécialisation coûte cher

Aujourd'hui, les LLM les plus performants sont des généralistes, et les meilleurs spécialistes commencent par être généralistes avant de se perfectionner. Ce processus s'apparente à l'obtention d'un diplôme d'études supérieures en STIM (science, technologie, ingénierie et mathématiques) par un étudiant en sciences humaines. Et comme pour les programmes d'études supérieures, ce fine-tuning prend du temps et coûte cher. Il s'apparente à un goulet d'étranglement dans le développement de l'IA générative, car peu d'entreprises disposent des ressources et du savoir-faire nécessaires pour créer des modèles généralistes à partir de zéro. Pensez à un LLM comme à une grosse boule de chiffres qui encapsule les relations entre les mots, expressions et phrases. Plus le corpus de données textuelles derrière ces nombres est important, plus le LLM semble performant. Ainsi, un LLM avec 1000 milliards de paramètres tend à surpasser un modèle de 70 milliards de paramètres en termes de cohérence et de précision.

Pour spécialiser un LLM par fine-tuning, nous ajustons la boule de nombres ou nous ajoutons un ensemble de nombres complémentaires. Par exemple, pour transformer un LLM généraliste en spécialiste juridique, nous pourrions lui fournir des documents juridiques ainsi que des réponses correctes et incorrectes au sujet de ces documents. Le LLM ainsi adapté serait plus apte à résumer des documents juridiques et à répondre à des questions à leur sujet.

Étant donné qu'un projet de fine-tuning avec les GPU Nvidia peut coûter des centaines de milliers de dollars, les LLM spécialisés sont rarement ré-entraînés plus d'une fois par semaine ou par mois. Par conséquent, ils sont rarement au fait des connaissances et des événements les plus récents dans leur domaine.

S'il existait une façon simple de spécialiser un modèle, des milliers d'entreprises pourraient entrer sur le marché du LLM, ce qui renforcerait la concurrence et l'innovation. Et si ce moyen rendait la spécialisation plus rapide et moins coûteuse, peut-être que les LLM spécialisés pourraient être mis à jour en permanence. Le RAG est presque ce raccourci. Presque, car lui aussi présente des limites.

Tirer les leçons du RAG

Les LLM ont toujours un temps de retard sur le présent. Si nous demandions à un LLM de nous parler d'événements récents qu'il n'a pas ingurgités pendant son entraînement, il refuserait de répondre ou aurait des hallucinations. Si je surprenais une classe d'étudiants en informatique avec des questions d'examen sur un sujet inconnu, le résultat serait similaire. Certains ne répondraient pas et d'autres inventeraient des réponses qu'ils jugeraient raisonnables. En revanche, si je donnais aux étudiants une introduction à ce nouveau sujet dans le texte de l'examen, ils pourraient en apprendre suffisamment pour répondre correctement.

C'est, en somme, le principe même du RAG. Nous entrons un prompt et donnons ensuite au LLM des informations supplémentaires et pertinentes avec des exemples de bonnes et de mauvaises réponses afin 'd'augmenter' ce qu'il va générer. Le LLM ne sera pas aussi bien informé sur le sujet qu'un modèle ayant bénéficié d'un fine-tuning dédié, mais le RAG peut permettre à un LLM de se mettre à niveau à un coût bien inférieur.

Néanmoins, plusieurs facteurs limitent ce que les LLM peuvent apprendre par l'intermédiaire du RAG. Le premier facteur est l'allocation de jetons (les tokens). Avec les étudiants de premier cycle, je ne peux introduire qu'une quantité limitée de nouvelles informations dans un examen chronométré sans les submerger. De même, les LLM ont tendance à avoir une limite, généralement entre 4k et 32k de tokens par prompt, ce qui restreint la quantité d'informations qu'un LLM peut ingurgiter à la volée. Le coût de l'usage d'un LLM est également basé sur le nombre de tokens. Mieux vaut donc être économe avec le budget de tokens pour contrôler le coût global de l'usage de l'IA générative.

RAG : attention à l'expérience utilisateur

Le deuxième facteur limitant réside dans l'ordre dans lequel les exemples du RAG sont présentés au LLM. Plus un concept est introduit tôt, plus le LLM lui accorde d'attention en général. Bien qu'un système puisse réorganiser automatiquement les prompts d'augmentation, les limites des tokens subsistent, obligeant potentiellement le système à occulter ou minimiser des faits importants. Pour pallier ce risque, nous pourrions rédiger des prompts ordonnés de trois ou quatre manières différentes pour voir si la réponse est cohérente. À ce stade, cependant, nous obtenons des rendements décroissants en termes de temps et de ressources informatiques mobilisées.

Le troisième défi consiste à déployer la méthode de génération augmentée par récupération sans dégrader l'expérience de l'utilisateur. Si une application est sensible à la latence, le RAG peut être réellement handicapant. Le fine-tuning, par comparaison, a un effet minime les performances. Pour reprendre la comparaison avec les étudiants, c'est la différence entre le fait de connaître déjà l'information et le fait de lire sur le sujet avant de concevoir une réponse.

Une option pour dépasser ces limites consiste à combiner les techniques : le fine-tuning d'un LLM d'abord, puis l'utilisation du RAG pour mettre à jour les connaissances ou pour référencer des informations privées (relevant, par exemple, de la propriété intellectuelle de l'entreprise), qui ne peuvent pas être confiées à un modèle accessible au public. Alors que le fine-tuning est permanent, le RAG confère à un LLM des connaissances temporaires, empêchant ainsi les préférences et le matériel de référence d'un utilisateur de venir 'recâbler' l'ensemble d'un modèle de manière involontaire.

Aligner les limites du fine-tuning et du RAG permet de préciser la question ouverte de l'IA, mentionnée au début. Elle devient : comment spécialiser les LLM à moindre coût et plus rapidement sans sacrifier les performances aux limites des tokens, en prenant en compte l'ordonnancement des prompts et la sensibilité à la latence ?

Vers des pools de LLM spécialisés

L'un des points d'achoppement auquel se heurtent les entreprises avec l'IA générative réside dans la capacité à développer à un coût raisonnable des LLM spécialisés qui fournissent des réponses fiables de niveau expert dans des domaines spécifiques. Le fine-tuning et le RAG permettent d'y parvenir, mais à un coût trop élevé. Envisageons donc une solution potentielle. Que se passerait-il si nous renoncions (en grande partie) à la formation généraliste du modèle, si nous spécialisions de multiples LLM avec des paramètres de bas niveau et si nous appliquions ensuite la méthode RAG ?

Essentiellement, cela revient à prendre une classe d'étudiants en arts libéraux (un enseignement multidisciplinaire), à réduire leur programme de premier cycle de quatre à un an et à les envoyer ensuite obtenir des diplômes d'études supérieures connexes. Nous soumettrions ensuite nos questions à certains ou à l'ensemble de ces spécialistes. La création et le maintien de ce panel de spécialistes serait moins coûteux sur le plan informatique. Si on tisse la comparaison avec des compétences humaines, le principe revient à dire que cinq avocats ayant chacun cinq ans d'expérience sont plus fiables qu'un seul avocat ayant 50 ans d'expérience. Bien que moins expérimenté, notre panel a probablement généré une réponse correcte s'il y a un large consensus parmi ses membres.

Diminuer les hallucinations par le collectif

Nous commençons à voir des tests dans lesquels plusieurs LLM spécialisés collaborent sur le même prompt. Plutôt avec succès jusqu'à présent. Par exemple, le LLM Mixtral, un modèle spécialiste du code conçu parle Français Mistral, utilise une architecture (SMoE pour Sparse Mixture-of-Experts) basée sur 8 LLM experts distincts.

Ce recours à des grappes de LLM supprime également le caractère aléatoire inhérent à l'utilisation d'un seul LLM. La probabilité qu'un LLM hallucine est relativement élevée, mais la probabilité que cinq LLM hallucinent en même temps est bien plus faible. Et il est toujours possible d'exploiter le RAG en complément, pour partager de nouvelles informations. Si l'approche des panels de modèles fonctionne, les petites entreprises pourraient se permettre de développer des LLM spécialisés qui surpassent leurs équivalents passés par le fine-tuning et continuent d'apprendre à la volée grâce au RAG.

Pour les étudiants en sciences humaines, une spécialisation précoce peut s'avérer problématique. Les connaissances généralistes sont souvent essentielles pour comprendre un matériel avancé et le placer dans un contexte plus large. A l'inverse, les LLM spécialisés n'ont pas de responsabilités civiques, ni morales ou familiales comme les êtres humains. Les spécialiser jeunes sans nous préoccuper des déficiences qui en résulteraient devient donc envisageable.

Le RAG comme étape ultime de spécialisation

Aujourd'hui, la meilleure approche pour former un LLM spécialisé consiste à perfectionner un modèle généraliste. Le RAG peut temporairement accroître les connaissances d'un LLM, mais en raison des limites imposées par les tokens, les connaissances supplémentaires qu'il amène restent superficielles.

Bientôt, nous pourrons nous passer de l'entraînement de modèles généralistes et développer des pools de LLM plus spécialisés et plus efficaces en termes de calcul, qui eux-mêmes pourront être améliorés par le RAG. Nous ne dépendrons plus de LLM généralistes dotés de capacités extraordinaires pour générer des contenus. Au lieu de cela, nous obtiendrons l'équivalent du savoir collectif de plusieurs jeunes chercheurs bien formés. Bien qu'il faille se garder d'anthropomorphiser les LLM ou d'attribuer à l'homme des qualités semblables à celles d'une machine, certains parallèles méritent d'être effectués. Il serait risqué de compter sur une seule personne, une seule source d'information ou un seul forum pour forger nos connaissances, tout comme il est risqué de dépendre d'un seul LLM pour obtenir des réponses précises.

Inversement, un brainstorming avec 50 personnes, la lecture de 50 sources d'information ou la consultation de 50 forums introduisent trop de bruit (et génère trop de travail). Il en va de même pour les LLM. Il existe probablement un juste milieu entre l'usage d'un unique modèle généraliste et le recours à un trop grand nombre de spécialistes. Nous ne savons pas encore où cet équilibre se situe, mais une fois celui-ci établi, le RAG se révélera encore plus utile qu'actuellement.

L'auteur, Jignesh Patel, est cofondateur de DataChat et professeur à l'université Carnegie Mellon.

En complément :
Laurence Devillers : « l'IA générative ne produit ni pensée, ni intention, ni émotion »
L'environnement, l'angle mort du boom de l'IA générative
Comment Crédit Agricole, Veolia et Club Med intègrent l'IA générative à l'environnement de travail
TotalEnergies raffine ses résultats de recherche avec le RAG