Les entreprises qui tentent aujourd’hui de déployer l’IA générative sont confrontées à un problème majeur. S’ils utilisent une plateforme commerciale comme OpenAI, ils doivent envoyer les données vers le cloud, ce qui peut aller à l’encontre des exigences de conformité et s’avérer coûteux. S’ils téléchargent et exécutent un modèle comme Llama 2 localement, ils doivent en savoir beaucoup sur la façon de l’affiner, de configurer des bases de données vectorielles pour l’alimenter en données en direct et de le rendre opérationnel.

Le dernier partenariat de VMware avec Nvidia vise à résoudre ces problèmes en proposant une plateforme d’IA générative entièrement intégrée et prête à l’emploi que les entreprises peuvent exécuter sur site, dans des installations de colocation ou dans des cloud privés. La plateforme comprendra Llama 2 et un choix d’autres grands modèles de langage, ainsi qu’une base de données vectorielles pour fournir des informations à jour sur l’entreprise au LLM. Le produit, VMware Private AI Foundation with Nvidia, comportera un logiciel d’IA générative et un système de calcul accéléré par GPU fourni par Nvidia, et il sera construit sur Cloud Foundation et optimisé pour l’IA.

Incontournable IA générative

Le besoin d’une telle plateforme est devenu prégnant. Selon l’étude de référence mondiale sur l’IA générative de Lucidworks publiée ce mois-ci, 96 % des cadres et managers impliqués dans les processus décisionnels en matière d’IA donnent activement la priorité aux investissements en IA générative, et 93 % des entreprises prévoient d’augmenter leurs dépenses en IA au cours de l’année à venir. Mais la gestion des risques est une préoccupation majeure. Le paysage réglementaire incertain et en évolution a un impact significatif sur les décisions d’investissement dans l’IA générative, ont déclaré 77 % des CEO interrogés dans le cadre d’une récente enquête de KPMG. La priorité accordée à une gestion efficace des risques a augmenté dans tous les domaines au cours des derniers mois, a rapporté KPMG, la protection des données personnelles et les problèmes de confidentialité étant en tête de liste des priorités avec 63 %, suivis par la cybersécurité avec 62 %. 

L’exécution de modèles de langage volumineux sur site ou dans d’autres environnements contrôlés par l’entreprise peut considérablement atténuer bon nombre de ces problèmes. « Avoir la possibilité d’exécuter un modèle localement peut ouvrir de nombreuses portes aux entreprises à qui il était simplement interdit d’utiliser des modèles hébergés publiquement, même s’ils étaient hébergés dans un cloud public », explique Bradley Shimmin, analyste en chef (IA et data) au sein du cabinet de recherche Omdia. Cela est particulièrement important pour les secteurs fortement réglementés comme la finance, dit-il, ou pour les cas d’utilisation par le gouvernement. Les LLM locaux peuvent également répondre aux problèmes de résidence des données. « Avoir la possibilité de disposer de modèles de pointe que vous pouvez exécuter entièrement dans des systèmes à air isolé est assez convaincant », souligne Bradley Shimmin. « Il s’agit avant tout d’adapter le modèle aux données. La gravité des données est le moteur de l’ensemble du secteur ».

Si les modèles exécutés localement sont également gratuits et open source, les entreprises pourront économiser beaucoup d’argent en n’ayant pas à payer pour les appels d’API OpenAI. « La latence est plus faible, le coût est inférieur et vous avez plus de contrôle sur celui-ci », déclare Manish Goyal, responsable mondial de l’IA et de l’analyse chez IBM Consulting. Et cette semaine, lors de la conférence VMware Explore 2023, Nvidia et VMware démontrent comment les entreprises peuvent utiliser leurs outils pour télécharger des LLM open source gratuits, les personnaliser et déployer une IA générative de qualité production dans les environnements VMware. VMware Private AI Foundation ne sera toutefois disponible qu’au début de l’année prochaine.

Comment fonctionne VMware Private AI Foundation

« Nous pensons que les entreprises apporteront davantage de charges de travail de génération IA à leurs données, plutôt que de déplacer leurs données vers les services de cloud public », déclare Paul Turner, vice-président de la gestion des produits pour vSphere et la plateforme cloud chez VMware. Les entreprises peuvent prendre des modèles comme Meta Llama 2, les placer dans leur datacenter à côté de leurs données, les optimiser et les affiner, et créer de nouvelles offres commerciales, explique-t-il. « Cela contribue à créer des différenciateurs commerciaux pour les entreprises ».

Cependant, lorsque les entreprises tentent de le faire elles-mêmes, il peut s’avérer difficile d’intégrer tous les composants matériels et logiciels avec toutes les applications et boîtes à outils nécessaires. « Nous voulons simplifier les choses pour nos clients », indique Paul Turner. Private AI Foundation constitue la pile complète, dit-il. Cela commence par un modèle fondamental : Llama 2 de Meta, ou Falcon, ou l’IA NeMo de Nvidia. Selon lui, il est plus efficace de s’appuyer sur des modèles existants que de créer de nouveaux modèles fondamentaux à partir de zéro. Une fois les modèles affinés, ils ont besoin d’un moyen d’obtenir des informations à jour sans avoir à se recycler. Cela se présente généralement sous la forme de bases de données vectorielles. Private AI Foundation dispose donc d’une base de données vectorielle intégrée : PostgreSQL avec l’extension PGVector. « La base de données vectorielles est très utile si elle contient des informations rapides », explique Paul Turner. « Cela fait partie de la construction d’une solution complète ». De plus, VMware a fait le gros du travail en matière d’optimisation des performances.

Un tarif au nombre de GPU exploités

« Les modèles ne travaillent pas avec un seul GPU », explique Paul Turner. « Ils ont besoin de deux, voire quatre GPU. Parfois, vous souhaitez aller jusqu’à 8 pour obtenir les performances dont vous avez besoin – et nous pouvons le faire évoluer jusqu’à 16 GPU. Le stockage est également optimisé », ajoute-t-il. Il existe un chemin direct du GPU vers le stockage, contournant le CPU. Dell, HPE et Lenovo sont déjà adoubés partenaires pour fournir le reste de la pile matériel coté serveur et stockage. « Il s’agira d’un produit SKU unique de VMware », explique Paul Turner, « mais il sera également livré par ces fournisseurs sous forme de systèmes préintégrés et prêts à l’emploi. Nous donnons ce choix aux clients ». Private AI Foundation sera également disponible via les canaux et distributeurs OEM de l’éditeur, ainsi que chez plus de 2 000 partenaires MSP. Les solutions d’IA de Nvidia seront aussi proposées via un large système de partenaires, déclare Justin Boitano, vice-président de l’informatique d’entreprise chez Nvidia. « Nous avons plus de 20 OEM et ODM mondiaux ».

Le prix sera basé sur les GPU, précise Paul Turner de VMware. « Nous voulons le lier à la valeur pour les clients ». Il a toutefois refusé de donner plus de détails. « Nous ne sommes pas prêts à partager les tarifs à ce sujet ». Si les clients ne souhaitent pas attendre l’année prochaine, des architectures de référence sont déjà disponibles. « Les clients peuvent mettre en place les leurs », explique le dirigeant. « Mais la suite unique entièrement intégré sera disponible début 2024 ».

Affiner les LLM

Selon Justin Boitano de Nvidia, l’IA générative est la technologie la plus transformationnelle dans les entreprises. « Ces modèles sont incroyables », dit-il. « Ils fournissent une interface en langage naturel aux systèmes commerciaux d’une entreprise. Leur puissance est phénoménale. Nous prévoyons que l’IA sera introduite dans toutes les entreprises au cours de la prochaine décennie ». Le problème est que les modèles disponibles dans le commerce ne connaissent que les données sur lesquelles ils ont été formés. S’ils savent quelque chose sur une entreprise spécifique, ce sont uniquement les informations publiques disponibles sur le Web au moment de leur formation. De plus, les modèles de base comme ChatGPT sont formés pour tous les sujets. Ils peuvent écrire de la poésie, coder et aider à planifier des repas, mais ils ne sont souvent pas très doués pour les tâches spécifiques qu’une entreprise pourrait leur confier. « Vous devez personnaliser les modèles en fonction des informations privées de votre entreprise », explique Justin Boitano. « C’est là que se révèle la véritable valeur commerciale ». Il peut s’agir des enregistrements du centre d’appels d’une entreprise ou de tickets informatiques. « Mais vous ne voulez pas confier ces données à un modèle qui les prend et les code dans un objet public », dit-il. C’est là qu’interviennent les modèles open source comme Llama 2, dit-il. « Vous pouvez extraire ces modèles et les combiner facilement avec vos informations exclusives, afin que le modèle ait une compréhension nuancée de ce dont vous avez besoin ».

VMware Private AI Foundation est livré avec des modèles prépackages, explique Justin Boitano, des cadres de formation et un atelier AI. « Cela facilite le démarrage sur votre ordinateur portable ou PC, mais offre un chemin facile pour passer au centre de données, où se déroulera l’essentiel du travail de calcul et d’inférence », explique-t-il. Le réglage fin ne demande que huit heures avec huit GPU pour créer un modèle de 40 milliards de paramètres. Ensuite, la base de données vectorielles est connectée, afin que l’IA puisse avoir accès aux informations actuelles provenant de toute l’entreprise. « Nous pensons que tout cela révèle des problèmes auparavant impossibles à résoudre », précise le dirigeant de Nvidia. La plateforme prendra en charge le GPU A100 AI, introduite pour la première fois en 2020, le H100 lancé en 2022, les smartNIC ConnectX, les DPU Bluefield 3 et l’accélérateur L40S attendu l’année prochaine, a déclaré Justin Boitano. Le L40S offrira des performances d’inférence générative d’IA 1,2 fois supérieures et des performances d’entraînement 1,7 fois supérieures à celles de l’A100, précise-t-il. « De nombreux partenaires sont enthousiasmés par le L40S, car il ne sert pas uniquement à l’IA générative, mais peut également créer des bureaux virtuels (VDI) et effectuer des rendus », ajoute-t-il.

Qu’est-ce que Meta Llama 2

La plateforme VMware Private AI Foundation sera capable d’exécuter une variété de modèles d’IA génératifs, mais celui mentionné le plus fréquemment de nos jours pour les déploiements en entreprise est le Llama 2 de Meta, sorti en juillet dernier. S’il est open source et en théorie gratuit pour un usage commercial, les entreprises comptant plus de 700 millions d’utilisateurs mensuels actifs devront demander une licence. Aujourd’hui, presque tous les grands modèles de langage en tête du classement HuggingFace Open LLM sont des variantes de Llama 2. Auparavant, les modèles open source fondamentaux étaient limités en termes d’utilisation, beaucoup étant basés sur le précurseur de Llama 2, Llama, et uniquement sous licence pour un usage non commercial.

« Nous disposons désormais d’un modèle open source sous licence commerciale pour lequel vous n’avez pas à payer », déclare Juan Orlandini, directeur technique pour l’Amérique du Nord chez Insight, un intégrateur de solutions basé à Chandler, en Arizona. « Le génie est sorti de la bouteille ». Les entreprises peuvent télécharger ces modèles, les affiner en effectuant des formations supplémentaires sur leurs propres données et leur donner accès aux données en temps réel via des intégrations, explique-t-il. Llama 2 est disponible en trois versions, permettant aux entreprises d’optimiser les performances par rapport aux exigences matérielles. « Vous pouvez réellement prendre cela et le transformer en quelque chose qui peut fonctionner sur des systèmes relativement peu gourmands », précise-t-il.

Les LLM privés commencent à être la voie à suivre dans les organisations, déclare John Carey, directeur général du groupe Technology Solutions au sein de la société de conseil mondiale AArete. Leur plus grand avantage est qu’ils permettent aux entreprises d’intégrer l’IA à leurs données, plutôt que l’inverse. « Les entreprises doivent sécuriser leurs données, elles doivent s’assurer que leur politique de contrôles d’accès et toute leur gouvernance sont bien appliquées, mais elles veulent des fonctionnalités de type ChatGPT », explique John Carey. « Mais il existe de réelles inquiétudes concernant ChatGPT ou Bard ou autre, en particulier pour les données sensibles du type contractuelles ou santé ».

Llama 2 également supporté par d'autres

« AWS met en avant sa famille de modèles Titan, mais ils se sont également récemment associés à Meta pour également héberger les modèles Llama », explique Bradley Shimmin d’Omdia. Microsoft a également annoncé la prise en charge de Llama 2 sur Azure, et il est déjà disponible dans le catalogue de modèles Azure Machine Learning. « J’imagine, étant donné la façon dont Google a conçu ses outils, qu’ils seraient également capables d’héberger et de travailler avec des modèles tiers, à la fois fermés et open source », explique Bradley Shimmin. Enfin, IBM prévoit de rendre Llama 2 disponible au sein de sa plateforme Watsonx AI et Data.