Avec les projets de transformation numérique, les questions de dette technique ont commencé à prendre de l’importance dans certaines entreprises. Une start-up de Mountain View du nom de Dremio a présenté il y a quelques semaines un outil gratuit, Big Data Debt Calculator, pour aider ces entreprises à estimer les coûts imprévus provenant de l’utilisation des technologies de gestion de données non relationnelles. Les solutions SaaS, les bases de données dans le cloud, les technologies NoSQL et apparentées fournissent d’autres façons de créer et diffuser les applications de nouvelle génération. Elles réduisent les temps de mise à disposition sur le marché, mais les données qui sont générées avec les systèmes créés sont souvent incompatibles avec les workflows analytiques traditionnels. Tout en permettant aux entreprises d’accompagner des initiatives business stratégiques, les nouvelles applications créent aussi des besoins pour de nouveaux outils.

« Toutes les données ont un cycle de vie, et depuis près de 40 ans, ce cycle s’est basé sur le modèle relationnel », expose Tomer Shiran, CEO de Dremio et l’un de ses co-fondateurs. « Les données, les outils pour les créer et les analyser et les compétences pour les maîtriser partagent une approche commune. Avec l’émergence des big data, des technologies ont été créées pour supporter les structures de données modernes et pour s’adresser à des utilisateurs susceptibles d’être constamment connectés. Ces nouveaux systèmes ont un rôle important dans la mise en place d’applications modernes, toutefois, ils produisent des données qui sont fondamentalement incompatibles avec les infrastructures analytiques existantes, dont les datawarehouses, les outils ETL, la BI et les systèmes de data science comme R et Python. Par conséquent, de nombreuses entreprises creusent leur dette sur les données ». Avec son outil Big Data Debt Calculator, Dremio aide à se faire une idée de cette dette technique imprévue. La start-up donne par ailleurs des recommandations pour la minimiser et des stratégies pour la réduire et s’assurer qu’elle se maintient dans des limites acceptables.

Le calcul tient compte des technologies et des data scientists

Le calculateur prendre quatre éléments en compte : premièrement, le volume de données source, en téraoctets, qui sont stockées dans des systèmes non relationnels, en incluant Hadoop, NoSQL, Amazon S3 et les applications tierces, deuxièmement, le nombre de systèmes source (et non pas les serveurs, par exemple un cluster Hadoop de 50 nœuds compte pour un système), troisièmement, le nombre de data analysts qui exploitent les données et, quatrièmement, le nombre de data scientists qui les exploitent également. Dremio prend deux autres types de coûts en compte, d'une part, ceux qui sont liés aux risques (liability costs) et d'autre part, les coûts de renoncement (opportunity costs) qui évaluent ce à quoi l’on renonce en affectant des ressources existantes à une autre utilisation. Parce que les big data impliquent souvent l’utilisation d’outils et de protocoles moins matures que ceux des approches traditionnelles, Dremio estime que ces systèmes présentent un coût qui doit être considéré. Dans le premier cas, cela inclut les pertes potentielles résultant des données qui circulent de façon non sécurisée et non gouvernée à travers les pipelines pour les rendre compatibles avec les outils utilisés par les analystes et les data scientists.

Concernant les autres coûts, dit de renoncement ou de substitution, Dremio note que déplacer les données des applications dans les environnements analytiques peut prendre du temps et que la réduction de ces délais peut induire des coûts très élevés. Certains des coûts qui peuvent être ainsi encourus incluent des valeurs non réalisées, comme conséquence d'un délai prolongé d’accès aux résultats lorsque les données transitent à travers les pipelines pour arriver aux outils utilisés par les analystes et les data scientists. Le calculateur proposé en ligne utilise ces éléments pour estimer les coûts de la technologie, des ressources humaines associées et le coût total de la dette big data.