Historiquement, les bases de données vectorielles existent depuis des années mais elles sont surtout exploitées en cartographie et en géolocalisation. Elles reviennent sur le devant de la scène grâce à la GenA, car les grands modèles de langage ont besoin d’accéder rapidement à des informations. Des acteurs se sont donc engouffrés dans ce domaine comme l’entreprise israélienne Pinecone ou encore des alternatives open source comme la start-up néerlandaise Weaviate et bien d’autres comme Milvus, Qdrant ou Chroma. Techniquement, une base de données vectorielle stocke et gère des données non structurées (plus de 80% des données étant non structurées aujourd’hui), telles que du texte, des images ou de l'audio, dans des intégrations vectorielles (vecteurs de grande dimension) pour faciliter la recherche et la récupération rapide d'objets similaires. Et, c’est bien là leur valeur ajoutée, c’est de trouver rapidement et précisément des points de données similaires par rapport aux bases traditionnelles où les points de données sont représentés par des lignes et des colonnes et donc trop lentes. Dans une base de données vectorielle, les vecteurs représentent des points de données avec un nombre fixe de dimensions, regroupés par similarité. Chaque vecteur correspond à un objet ou à un élément, il peut s'agir d'un mot, d'une image, d'une vidéo, d'un film, d'un document ou de toute autre donnée. Ces vecteurs seront probablement longs et complexes, définissant l'emplacement de chaque objet selon des dizaines, voire des centaines de dimensions. Par exemple, une base de données vectorielle de films peut localiser des films en fonction de dimensions telles que la durée, le genre, l'année de sortie, la classification de l'orientation parentale, le nombre d'acteurs ou le nombre de spectateurs en commun, etc. De par leur fonctionnement, ces bases sont donc essentielles pour des tâches IA telles que l'apprentissage automatique et le traitement automatique du langage naturel, les modèles RAG les utilisent pour améliorer les capacités des grands modèles de langage en leur fournissant des informations pertinentes et actualisées provenant des sources de données de l’entreprise. Ces bases vectorielles gagnent en popularité, selon Gartner, d'ici 2026, plus de 30 % des entreprises les auront adoptées.
Des bases vectorielles indispensables pour la recherche et le RAG

Commentaire