A l'instar de ses concurrents, IBM s'investit dans la mise au point de solutions capables d'analyser de très importants volumes de données. Séduit par les capacités apportées par le projet Apache Hadoop, consacré au traitement distribué intensif, il vient d'annoncer qu'il intégrait ce framework Open Source à son offre de services analytiques. Hadoop permet de répartir les traitements sur de multiples noeuds et d'en rassembler ensuite les résultats. Il combine plusieurs sous-projets : la base distribuée HBase supportant le stockage de données structurées sur un nombre élevé de tables, l'infrastructure de datawarehouse Hive, le framework MapReduce (mis au point par Google) pour le traitement distribué de grandes quantités de données sur des systèmes en clusters, ou encore Pig (langage de haut niveau pour les traitements parallèles), ZooKeeper (service de coordination d'applications distribuées),  HDFS (système de fichiers distribué) et Chukwa (gestion de systèmes distribués de grande envergure).

Nom de code : BigInsights Core et BigSheets

Les offres élaborées par IBM autour d'Hadoop sont réunies sous l'appellation générique d'IBM InfoSphere BigInsights. Le suffixe Big fait ici référence à l'expression « Big data » qui caractérise ces volumes de données augmentant dans des proportions telles qu'ils exigent de nouveaux modes de récupération, de stockage, d'analyse et de visualisation pour parvenir à y repérer les informations importantes (dans les domaines de la finance, de la santé, de la lutte contre la criminalité, etc.). L'analyse et la gestion de l'information constituent pour IBM un secteur stratégique, le groupe prévoyant de générer 16 milliards de dollars d'ici 2015 sur ses activités « Business Analytics and Optimization », ainsi que l'a récemment indiqué le directeur financier Mark Loughridge.

InfoSphere BigInsights comprend d'abord un ensemble de logiciels et services d'Apache Hadoop qu'IBM désigne sous le nom de code BigInsights Core. Celui-ci permettra aux départements informatiques de construire et déployer des traitements analytiques sur mesure, à partir de volumes de données de l'ordre de ceux que peut générer Internet.