IBM prépare des offres analytiques basées sur Apache Hadoop

Sous le nom de code BigInsights Core, Big Blue prépare des réponses au traitement analytique portant sur de très importants volumes de données. Cette solution doit s'insérer dans un portefeuille de produits et services désigné sous le nom d'Infosphere BigInsights.

A l'instar de ses concurrents, IBM s'investit dans la mise au point de solutions capables d'analyser de très importants volumes de données. Séduit par les capacités apportées par le projet Apache Hadoop, consacré au traitement distribué intensif, il vient d'annoncer qu'il intégrait ce framework Open Source à son offre de services analytiques. Hadoop permet de répartir les traitements sur de multiples noeuds et d'en rassembler ensuite les résultats. Il combine plusieurs sous-projets : la base distribuée HBase supportant le stockage de données structurées sur un nombre élevé de tables, l'infrastructure de datawarehouse Hive, le framework MapReduce (mis au point par Google) pour le traitement distribué de grandes quantités de données sur des systèmes en clusters, ou encore Pig (langage de haut niveau pour les traitements parallèles), ZooKeeper (service de coordination d'applications distribuées), HDFS (système de fichiers distribué) et Chukwa (gestion de systèmes distribués de grande envergure).

Nom de code : BigInsights Core et BigSheets

Les offres élaborées par IBM autour d'Hadoop sont réunies sous l'appellation générique d'IBM InfoSphere BigInsights. Le suffixe Big fait ici référence à l'expression « Big data » qui caractérise ces volumes de données augmentant dans des proportions telles qu'ils exigent de nouveaux modes de récupération, de stockage, d'analyse et de visualisation pour parvenir à y repérer les informations importantes (dans les domaines de la finance, de la santé, de la lutte contre la criminalité, etc.). L'analyse et la gestion de l'information constituent pour IBM un secteur stratégique, le groupe prévoyant de générer 16 milliards de dollars d'ici 2015 sur ses activités « Business Analytics and Optimization », ainsi que l'a récemment indiqué le directeur financier Mark Loughridge.

InfoSphere BigInsights comprend d'abord un ensemble de logiciels et services d'Apache Hadoop qu'IBM désigne sous le nom de code BigInsights Core. Celui-ci permettra aux départements informatiques de construire et déployer des traitements analytiques sur mesure, à partir de volumes de données de l'ordre de ceux que peut générer Internet.

[[page]]

Par ailleurs, la technologie logicielle BigSheets est conçue pour extraire et découvrir des informations rapidement et de façon très visuelle, à partir d'une interface web. Il inclut une extension pour les moteurs d'analyse et les logiciels de visualisation tels que ManyEyes. Enfin, IBM prévoit des solutions d'analyse spécifiques pour permettre aux secteurs de la finance, de la gestion des risques, des médias et du loisir de mettre en place des application pour l'analyse d'énormes quantités de données.
[mise à jour : IBM n'a pas indiqué de date de sortie pour ces solutions en développement qu'il a dévoilées à l'occasion de sa conférence "Information On Demand EMEA 2010" qui s'est tenue à Rome, du 19 au 21 mai dernier).

Prédictif : Big Blue conjugue les logiciels d'Ilog et de SPSS

Par ailleurs, IBM développe ses offres conjuguées avec SPSS, le spécialiste du datamining racheté en juillet 2009. Dans ce domaine, il vient cette fois d'annoncer la disponibilité d'une solution qui tire également parti des technologies de l'éditeur français Ilog, acquis par Big Blue en juillet 2008 [ainsi que des logiciels de Cognos].

SPSS Decision Management associe ainsi des modèles prédictifs, des règles métiers et des fonctions d'optimisation. L'application aide l'entreprise à prendre des décisions en fonction des habitudes d'achat des consommateurs, et en prenant en compte les évolutions de sa stratégie et de la conjoncture économique. Deux offres verticales sont disponibles, respectivement destinée aux compagnies d'assurance (détection des demandes d'indemnisation frauduleuse) et aux sociétés de marketing (gestion multicanale des interactions entrantes avec les clients).

Capture d'écran de la solution IBM SPSS Data Management.
Cliquer ici pour agrandir l'image.