Cette semaine, lors de la conférence Hadoop World (du 8 au 9novembre à NY), analystes et responsables informatiques ont appelé les dirigeants des entreprises de technologie à se montrer vigilants avant d'utiliser Hadoop pour agréger des données provenant de multiples sources disparates, les mettant en garde contre des problèmes potentiels de sécurité. Le framework Java Open Source Hadoop permet aux entreprises de collecter, d'agréger, de partager et d'analyser d'énormes volumes de données structurées et non structurées, des données stockées par l'entreprise, ou provenant de blogs, de transactions en ligne ou encore résultant des échanges au sein de médias sociaux.

De plus en plus d'entreprises utilisent Hadoop et des technologies connexes comme Hive, Pig et Hbase pour traiter leurs données. En partie parce qu'elles ne peuvent pas le faire facilement et à coût raisonnable avec les bases de données relationnelles traditionnelles. JPMorgan Chase, par exemple, utilise Hadoop pour améliorer la détection des fraudes, pour gérer certains risques informatiques et les applications en self-service. Le groupe financier l'utilise également pour avoir un point de vue beaucoup plus global sur sa clientèle, comparé à ses outils précédents, comme l'ont déclaré ses dirigeants. Ebay a aussi utilisé la technologie Hadoop et la base de données Open Source Hbase pour élaborer un nouveau moteur de recherche pour son site de vente aux enchères.

Attention aux problèmes de sécurité

Les analystes estiment que les services informatiques qui utilisent le framework Hadoop pour ce type d'applications doivent être conscients des problèmes de sécurité potentiels qu'elle pose. « L'utilisation de la technologie Hadoop pour agréger et stocker des données provenant de sources multiples peut générer une série de problèmes liés au contrôle d'accès et à la gestion, mais aussi au droit et à la propriété des données, » a déclaré Larry Feinsmith, directeur général des opérations IT chez JPMorgan Chase. « Dans les environnements Hadoop, on peut trouver des données de niveau et de sensibilité différentes, en matière de classification et de sécurité, » a renchéri Richard Clayton, ingénieur informatique chez Berico Technologies, un fournisseur de services informatiques pour les agences fédérales.

« Le défi pour les entreprises est de s'assurer qu'elles ont mis en place des contrôles de sécurité adaptés, qui maintiennent le niveau d'accès aux données, » a-t-il ajouté. « L'agrégation des données dans un environnement unique augmente également le risque de vol ou d'une divulgation accidentelle, » a déclaré Richard Clayton. Surtout, l'analyse des données agrégées dans un environnement Hadoop par des applications peut se traduire par la création de nouveaux documents qui ont peut-être aussi besoin d'être protégés. « De nombreuses organisations gouvernementales stockent leurs données Hadoop dans des «enclaves» distinctes, afin d'avoir l'assurance qu'elles ne seront accessibles qu'à ceux qui en ont l'autorisation, » a ajouté l'ingénieur de Berico Technologies. « La plupart des agences ne mettent pas leurs données sensibles dans des bases de données Hadoop, en raison de problèmes d'accès aux données, » a encore ajouté l'ingénieur. « Plusieurs agences ont tout simplement mis en place des pare-feu pour protéger leurs environnements Hadoop, » a-t-il expliqué.