Encore un ouvrage sur le big data ? Oui. Mais Big Data et machine learning : Manuel du data scientist se distingue par son approche méthodologique. Le but n'est pas ici d'expliquer à quel point il faut enrichir les consultants en tous genres pour qu'ils vous disent qu'il faut faire du big data. A l'inverse, de façon pragmatique, les auteurs veillent à définir avec pédagogie comment mettre en oeuvre concrètement le big data et en tirer de la valeur, notamment au travers de la prédiction basée sur l'automatisation de la création d'algorithmes (Machine Learning).

L'ouvrage de Pirmin Lemberger, Marc Batty, Médéric Morel et Jean-Luc Raffaëlli commence par redéfinir clairement le big data, sa nature, ses origines, les raisons technico-économiques de son émergence et comment il peut aboutir à de la création de valeur dans les entreprises. Après ce début très classique, le lecteur peut rentrer dans le dur et s'attaquer aux technologies et méthodologies. L'algorithme MapReduce et le framework Hadoop sont ainsi détaillés. La deuxième partie de l'ouvrage s'attaque alors à expliciter les missions, les tâches et les savoir-faire du data scientist, notamment pour traiter des données après les avoir rendues exploitables. Enfin, une dernière partie détaille les outils mis en oeuvre.

Très structuré, l'ouvrage se prête bien à la lecture rapide ainsi qu'à la recherche du passage adéquat pour résoudre un problème précis rencontré. Chaque chapitre s'ouvre par la définition détaillée de son objet et se conclut par un résumé. Lorsque c'est nécessaire, il existe quelques schémas.