La version 9 de la base de données NoSQL de MarkLogic sort de son mode bêta. Il s’agit d’une version majeure de cette solution qui « joue le rôle d’un data hub pour intégrer toutes les données de l’entreprise, structurées et non structurées, apporte des fonctions de data gouvernance et distribue les données en temps pour les applications stratégiques », nous a indiqué Frédéric Decaudin, directeur des équipes avant-vente en France pour MarkLogic. Présent dans l’Hexagone depuis deux ans (il s’est fait notamment remarquer sur le salon big data 2015), l’éditeur américain y compte déjà une trentaine de clients dont L’Assemblée nationale, le groupe Lagardère, Bayard Presse, BNP Paribas, Pernod Ricard ou encore l’OCDE qui l’utilise pour agréger et diffuser l’ensemble de ses contenus.

« Nous restons très actifs sur notre marché historique de la gestion de contenus, mais le secteur de la finance/assurance est le marché sur lequel nous enregistrons en ce moment notre plus forte croissance », constate Frédéric Decaudin. « Nous sommes également présents dans le secteur des transports ». En dehors de la gestion de contenus, la base de données est exploitée dans le domaine de la connaissance client pour agréger les données destinées à différentes applications marketing. « Le customer 360 représente un important cas d’usage », confirme le directeur avant-vente. « Le 3ème cas d’usage concerne tout ce qui touche au règlementaire, notamment dans la finance et la banque d’investissement, y compris en France. Nous travaillons aussi beaucoup autour du GDPR ». [ou RGPD, règlement général sur la protection des données, voir notre dossier]

Modélisation d'objets métiers pour accélérer l'intégration

La version 9 de MarkLogic se renforce dans trois domaines principaux : l’accélération des capacités d’intégration de données, les fonctions de sécurité avec du chiffrement et de l’anonymisation, et la gestion opérationnelle des données avec une nouvelle console d’administration. Plus précisément, sur les fonctions de data hub, l’objectif est d’accélérer les processus d’intégration pour déployer les projets plus rapidement et mettre MarkLogic en production en quelques semaines, indique d’abord le directeur avant-vente. Avec l’arrivée d’Entity Services, les entreprises vont pouvoir définir des modèles métiers pour concevoir très vite un référentiel clients ou produits. Elles pourront définir un vocabulaire pour décrire des entités réelles, « créer des objets métiers » et définir les relations qui existent entre eux, afin de faciliter ensuite la récupération des différentes sources de données, qui n’ont pas de formats préétablis et qui évoluent.

Entity Services (à gauche) permet de développer un modèle et un vocabulaire pour décrire des entités, tandis qu'Optic API facilitera l'intégration de données de différentes natures. (Agrandir l'image)

« Nous avons également amélioré toutes les API », poursuit le directeur avant-vente. Avec Optic API, MarkLogic 9 propose une interface de requête qui combine documents, descriptifs et lignes et permet d’effectuer des jointures et des agrégations entre documents. « La base propose des connecteurs techniques pour agréger n’importe quel type de données relationnelles ou transactionnelles, structurées ou non structurées », rappelle Frédéric Decaudin. Il est maintenant possible de définir des templates d’extraction de type relationnel ou sémantique pour qu’une partie des requêtes sur les données se fasse en SQL, à travers Optic API ou Sparql. Enfin, une API Java s'ajoute à celles déjà fournies pour déplacer d’importants volumes dans ou hors d’un cluster MarkLogic.

Chiffrement, anonymisation et accès granularisé

Du côté des fonctions de sécurité, la version 9 apporte du chiffrement avancé des données stockées dans la base NoSQL, que celles-ci soient en transit ou au repose. Ces fonctions, qui sont nativement intégrées, répondent à une demande très forte des clients. Jusqu’à présent, l’éditeur passait par des partenaires. Autre amélioration significative, il est maintenant possible d’exposer certaines données de manière anonymisée (les numéros de sécurité sociale ou de comptes), par exemple lors de l’alimentation d’un datawarehouse. Enfin, les droits d’accès aux données ont été affinés. Ils pouvaient déjà se faire par documents. « La granularité descend maintenant jusqu’à des notions de fiches clients ou de champs et l’on peut aussi anonymiser tel ou tel champ », nous a exposé Frédéric Decaudin en rappelant par ailleurs que MarkLogic était certifiée Common Criteria et qu’elle faisait dans ce cadre l’objet de test régulier pour tester notamment sa résistance au hacking.

Enfin, concernant le suivi opérationnel des instances de bases de données chez les clients au jour le jour, l’éditeur propose une nouvelle console d’administration, Ops Director, dotée d’une interface plus ergonomique pour gérer les clusters MarkLogic on premise et sur le cloud. « Des capacités ont été ajoutées pour mettre à jour à chaud les clusters indépendamment les uns des autres », souligne le directeur avant-vente France. Les outils de télémétrie, disponibles en mode opt-in activé par le client, permettent de disposer d’un support proactif de la part de l’éditeur. Une intégration est possible avec des applications tierces, les logs étant exposés de manière standardisés.

Une version gratuite limitée à 1 To pour les développeurs

Cette version 9 désormais téléchargeable en disponibilité générale était accessible en avance de phase depuis un an à certains clients et certains utilisateurs français l’ont déjà testée. Il y a quelques semaines, la solution a été retenue par certains acteurs du CAC40 pour réaliser des déploiements mondiaux. Sur le marché des bases de données NoSQL, MarkLogic présente la particularité de conserver une approche propriétaire et de n’être donc pas disponible en open source comme la plupart de ses concurrentes. Néanmoins, l’éditeur propose aux développeurs une licence gratuite qui fournit l’ensemble des fonctionnalités (dont l’index universel, les transactions ACID, les API Java et Rest, les connecteurs ODBC, ainsi que les fonctions sémantiques, de clustering, la haute disponibilité et de récupération après sinistre), mais avec une limite d'utilisation sur 1 To de données.