Coup dur pour la prestigieuse université de Kyoto au Japon. Un incident affectant le processus de sauvegarde de données d'un de ses supercalculateurs a débouché sur la perte de 77 To de données et 34 millions de fichiers effacés par erreur. « De 17h32 le 14 décembre 2021 à 12h43 le 16 décembre 2021, le système du supercalculateur est devenu volumineux en raison d'un bug dans le programme de sauvegarde », a expliqué l'université. 

« Un défaut s'est produit dans le programme qui sauvegarde le stockage du système de supercalculateur fabriqué par Hewlett Packard Japon, ce qui a provoqué un dysfonctionnement du script. En conséquence, certaines données du stockage sur disque de sauvegarde haute capacité ont été supprimées par inadvertance », a précisé de son côté HPE. Le fournisseur a reconnu son erreur et présenté ses excuses aux utilisateurs. L'université exploite des systèmes de supercalculateurs HP Cray et de stockage DataDirect ExaScaler.

Supercallculateur Université de Kyoto

Systèmes HPC et de stockage utilisés par l'Université de Kyoto. (crédit : Université de Kyoto)

Une mise à jour de script qui tourne mal

A l'origine, la mise à jour du script pour le supercalculateur de l'université de Kyoto devait apporter davantage de « visbilité et de lisibilité » incluant une commande de recherche pour supprimer des logs datant de plus de 10 jours. Mais cette mise à jour ne s'est pas du tout passée comme prévue. « Un script shell de récupération de fichiers a été écrasé et un autre rechargé en cours d'exécution ayant eu pour conséquence d'exécuter la commande find contenant des variables non définies avec pour conséquence de supprimer les fichiers du supercalculateur LARGE0 », a expliqué HPE dans un rapport

« Le processus de sauvegarde est actuellement arrêté mais nous prévoyons de le reprendre d'ici fin janvier après avoir résolu le problème et pris des mesures pour éviter que cela se reproduise », indique l'université. « Il est difficile de prendre des mesures complètes concernant la possibilité de perte de fichiers en raison d'une panne d'équipement ou d'un sinistre, donc même si vous être un utilisateur, veuillez sauvegarder les fichiers importants sur un autre système ». Plus que jamais la règle du 3-2-1 s'impose, à savoir 3 copies de données sur 2 supports différents dont 1 conservée dans un autre lieu.

Cet article a été mis à jour le 04/01/2022 concernant l'origine de l'incident.