Les données sont indissociables de l’IA. L’accélération des projets IA a pourtant mis en lumière certaines failles : problème de qualité, défaillances dans la migration, difficultés à gérer tout le cycle de vie... L’un des problèmes majeurs reste le manque d’interopérabilité et le cloisonnement des datas issues de plusieurs environnements, notamment multicloud. Selon une enquête de Gartner « Data Management Struggles to Balance Innovation and Control » publiée en mars 2020, 70% des entrepôts de données et des lacs de données dans les clouds privés et publics sont isolés et déconnectés des autres bases de l’entreprise.
De nombreuses entreprises possèdent ainsi des jeux de données inexploitables. Une étude Innovation Catalysts de Dell Technologies datant de février 2024 montre que 95% des organisations sont confrontées à des problèmes de gestion de données. Et des données mal préparées entraînent des réponses non pertinentes de l’IA.
C’est donc toute la gestion du cycle de vie des datas qui doit être repensée pour passer de données brutes à des données prêtes à alimenter l’intelligence artificielle. Cela implique de les gouverner, de les structurer, de les formater, mais aussi de réussir leur migration au sein d’un environnement de données unifié
Préparer les données pour l’IA
La préparation des données pour l’IA est au cœur de l’accompagnement de Dell et SCC dans le cadre de la Dell IA Factory, le framework pour piloter les projets IA. SCC et Dell commencent par cadrer les cas d’usage avant de déployer un socle data unifié et conforme, garantissant une configuration sans erreur. Ce socle de gestion de la donnée sera standardisé et scalable.
L’une des priorités consiste à traiter le plus tôt possible les données issues de multiples sources. William Saadi, CTO de la division Entreprise Solution de SCC France, prend l’exemple des datas issues de l’IoT. « Les entreprises gèrent de plus en plus d'objets connectés, comme des capteurs, pour des projets de Smart City ou de Smart Building. Dès que vous multipliez ces objets connectés, vous avez un volume de données qui est absolument titanesque. Mais dans ce volume de données, seulement 40 % sont vraiment utiles. Si j'attends que les données remontent au data center pour faire le tri, l’IA aura besoin d'une énorme inférence pour être exécutée, ce qui va engendrer une forte consommation de bande passante et donc un problème de latence. ».
Un environnement unifié de données
Pour remédier à cela, SCC et Dell mobilisent leurs compétences en data engineering et déploient la solution Dell Data Lakehouse. Basée sur les technologies de stockage haute performance de Dell (PowerScale, PowerStore) et des outils de traitement distribués, cette solution combine la souplesse d’un data lake et les performances d’un data warehouse. Elle permet d’exploiter indifféremment des données structurées, semi-structurées et non structurées à travers un même plan de gouvernance.
Les entreprises peuvent par ailleurs disposer de conseils avec l’activité ProConsultAdvisory for Data Management de Dell pour la gouvernance de leurs données. SCC et Dell proposent également la solution Dell Data Preparation Services, qui assure la structuration et le formatage des données destinées à alimenter les IA génératives et à améliorer la qualité des réponses. Il existe aussi la solution OptimizationServices for Data Cataloging de Dell pour établir une classification robuste des données pour améliorer leur transparence et leur ergonomie en vue d’alimenter l’IA. SCC et Dell offrent en cela un accompagnement tout au long du cycle de vie de la data.

Commentaire