Si vous voulez vraiment énerver une personne préoccupée par la sauvegarde des données, dites-lui qu’il n’y a pas de différence entre une ancienne sauvegarde et une archive. Ce serait insuffisant de dire que les données d’une baie RAID n'ont pas besoin d'être sauvegardées. Mais par chance, les différences entre sauvegarde et archivage sont assez claires et faciles à comprendre.

Qu'est-ce qu’une sauvegarde ?

La sauvegarde, également appelée back-up, consiste à dupliquer des données à l’identique pour pouvoir les restaurer en cas de dommage ou de perte. Après une sauvegarde, les données d'origine ne sont pas supprimées. On peut par exemple effectuer une sauvegarde de tous les fichiers d’un ordinateur portable ou d’une PC de bureau, ou de toutes les photos d’un smartphone dans le cloud pour les récupérer ensuite en cas de perte ou de panne du mobile. On sauvegarde également les serveurs de fichiers (données non structurées) et les bases de données (données structurées). On peut limiter le champ d’une sauvegarde à des données particulières, comme le dump d’une base de données, le système d'exploitation d’un serveur dans le cas d’une sauvegarde bare-metal, ou à plusieurs types de données comme dans le cas d'une sauvegarde de fichiers VMware.VMDK.

La notion de sauvegarde dépend vraiment de la finalité, et la finalité d'une sauvegarde est toujours la même : restaurer les données si elles sont endommagées. Par exemple, une baie RAID 6 peut subir une triple panne de disque. Dans ce cas, il faudra restaurer toutes ses données. Ou encore, quelqu'un pourrait supprimer accidentellement ou volontairement une ou plusieurs machines virtuelles d’une configuration VMware, Hyper-V ou AWS EC2, il faudra alors les restaurer. Il se peut aussi qu’un jour un ransomware parvienne à chiffrer tous les fichiers stockés sur les serveurs d’une entreprise. Sans système de sauvegarde efficace, celle-ci n’a pas d’autre choix que de payer la rançon. Mais avec un bon système de sauvegarde, elle peut identifier la source du ransomware, le bloquer, restaurer toutes ses données et échapper au chantage du pirate.

Qu'est-ce qu'une archive ?

Une archive consiste à créer une copie des données à des fins de référence. Même si ce n’est pas obligatoire, la création d'une archive s’accompagne souvent de la suppression de l'original. Alors que le but d'une sauvegarde est de permettre de restituer l’état antérieur des données, une archive peut avoir plusieurs finalités. L’objectif le plus courant de l’archive est de retrouver des données anciennes. Par exemple, un fichier unique contenant une donnée très importante, comme un contrat signé par un client il y a plusieurs années, ou un groupe de données connexes, comme tous les dessins de structure d’un bâtiment qui vient de s'effondrer. Ce pourrait être aussi tous les dessins CAO du widget que l’entreprise avait utilisé pour réaliser un bâtiment pour le réutiliser. Le design était passé de mode, mais le style recommence à plaire et l’entreprise veut s’en servir à nouveau.

Parmi les autres ensembles de données connexes, on peut également citer tous les courriels et/ou fichiers dont le continu aurait valeur de preuve. Par exemple, un salarié pense qu’on l’a autorisé à rester très tard au bureau, et il est licencié pour ce motif. L’entreprise pourrait devoir répondre à une demande de preuve électronique et être amenée à fournir tous les courriels relatifs à cette autorisation. Un autre salarié pourrait essayer de prouver que l’environnement de travail lui était hostile et réclamer à l’entreprise tous les courriels envoyés par ses responsables hiérarchiques répondants à certains mots clefs qu’il est inutile d'énumérer ici. L’archive permet typiquement de répondre à tous ces besoins.

Une entreprise peut conserver une archive de chaque commande, devis ou contrat. Elle peut garder en ligne les contrats et les commandes en cours, mais elle conservera la totalité des contrats et commandes dans des archives dont les données auront été indexées afin de retrouver plus tard les commandes et les contrats en fonction de leur contenu. Elle peut aussi conserver dans une archive tous les courriels échangés avec les clients. Certains systèmes d'archivage de courriels suppriment automatiquement les courriels du serveur de courriel qui ont été archivés, ou ceux dont la taille dépasse une certaine limite et/ou ceux qui n'ont pas été consultés depuis plus de n jours. Cela permet d’alléger le système de messagerie, d'économiser des ressources informatiques et de stockage et de faciliter la sauvegarde. C'est peut-être même une des fonctions principales de l’archive, si la loi n’oblige pas l’entreprise à conserver tous les courriels.

Restauration vs. récupération

Même si le but d'une archive est d'économiser de l'espace de stockage, pour avoir la qualité d’archive, celle-ci doit permettre d'effectuer une récupération des données, différente d’une restauration. Les systèmes de sauvegarde servent à restaurer les données et les systèmes d'archivage à les récupérer. La restauration peut concerner un seul fichier, un serveur ou une base de données. Alors que la récupération concerne généralement une série de données connexes, stockées ou non sur le même serveur, dans un format identique ou pas. En général, la restauration permet de retrouver l’état des données à un instant T, comme la restauration d'une base de données telle qu’elle était hier à 16 h, alors que la récupération couvre un intervalle de temps, par exemple, tous les courriels des trois dernières années.

Pour effectuer une restauration, il est indispensable de savoir où se trouvaient le fichier ou les données au moment de la sauvegarde, sinon, il est impossible de les trouver. Il faut connaître le nom du serveur sur lequel se trouvait le fichier, la base de données ou le répertoire, le(s) nom(s) du fichier ou de la table que l’on veut récupérer et la date à laquelle il a été visualisé pour la dernière fois. Les outils de récupérations ne disposent d’aucune de ces informations. Ils savent simplement qu'ils doivent trouver tous les fichiers ou enregistrements qui correspondent à divers paramètres. Par exemple, retrouver tous les fichiers ou courriels créés au cours des trois dernières années, contenant une phrase particulière, ou rédigés par une personne en particulier.

Une différence importante

Beaucoup de gens essaient d'utiliser leur système de sauvegarde comme système d'archivage, ce qui signifie qu'ils conservent leurs sauvegardes pendant de nombreuses années - ou même pour toujours. Mais, à la première demande de récupération, ils peuvent constater à quel point il est difficile d'effectuer une récupération à partir d’un ensemble destiné à faire des restaurations. Cette méthode rend la récupération beaucoup, beaucoup plus longue - plusieurs mois contre plusieurs minutes - et coûtera extrêmement plus cher, des millions d’euros au lieu de quelques euros. Si la récupération est motivée par une demande de communication électronique faisant suite à une plainte et si l’entreprise n’est pas en mesure de la satisfaire en temps voulu, le juge peut émettre une directive d'inférence défavorable. L’entreprise a six mois pour satisfaire une simple demande, et ce n’est pas tout. Si ce délai n’est pas respecté, le juge peut estimer que l’entreprise tente de dissimuler des preuves et en informer le jury. Si cela se produit, l’entreprise peut considérer son affaire comme perdue d’avance. L'exemple récent le plus spectaculaire concerne le procès Morgan Stanley : la banque américaine a perdu des milliards de dollars pour des faits exactement identiques.

En conclusion, il ne faut pas utiliser les sauvegardes comme archives. Les entreprises qui ont besoin de solutions de stockage à long terme ont tout intérêt à opter pour un vrai système d'archivage. Certes, cela représente un coût, mais cette dépense vaut la peine à long terme.

W. Curtis Preston est CTO de l'éditeur Druva et chroniqueur régulier chez NetworkWorld, du groupe IDG.