Ce week-end, AWS a soufflé les bougies du 20ème anniversaire de son service de stockage objet S3, acronyme de simple storage service. Le 14 mars 2006, Jeff Barr, évangéliste chez AWS, écrivait sur le blog de la société : « Nous avons lancé aujourd'hui S3, notre service de stockage de données fiable, hautement évolutif et à faible latence ». Il ajoutait, « grâce aux interfaces SOAP et REST, les développeurs peuvent facilement stocker un nombre illimité de blocs de données dans S3. Chaque bloc peut atteindre 5 Go et est associé à une clé définie par l'utilisateur ainsi qu'à des paires clé/valeur de métadonnées ». Pour mémoire, le stockage objet permet de conserver de très grandes quantités de données non structurées (vidéo, mail, photos, données de capteurs IoT,...) de manière sécurisée et à faible coût dans le cloud. Il est possible d’appliquer des classes de stockage (froide, chaude ou tiède) en fonction de la fréquence d’accès aux données. S3 est devenu un standard de facto et a été adopté par plusieurs spécialistes du stockage (Dell, Everpure, NetApp,…) et de la sauvegarde (Veeam, Rubrik, Cohesity,…).
500 trillions d’objets stockés
A l’époque, le service proposait « environ un pétaoctet de capacité de stockage totale, réparti sur quelque 400 nœuds de stockage dans 15 racks couvrant trois datacenters, avec 15 Gbit/s de bande passante totale », explique Sébastien Stormacq, développeur principal chez AWS dans un blog. Depuis, il a bien grandi pour « stocker plus de 500 000 milliards d’objets et sert plus de 200 millions de requêtes par seconde dans le monde, sur des centaines d’exaoctets de données réparties dans 123 zones de disponibilité dans 39 régions AWS ».
Côté technique, les ingénieurs du fournisseur travaillent toujours sur S3. « Au cours des huit dernières années, AWS a progressivement réécrit en Rust le code critique de S3 pour améliorer les performances », écrit Sébastien Stormacq. Il ajoute, « le déplacement des blobs et le stockage sur disque ont été réécrits, et des travaux sont en cours sur d'autres composants ». L’objectif est de gagner en performance, tout en gardant un haut niveau de fiabilité.
Cap sur l’IA
Fort de son succès, S3 a suscité l’intérêt des cybercriminels qui ont vu dans les buckets non protégés une mine de données. Les groupes de ransomware sont notamment à la recherche d’environnements S3 exposés sur Internet et mal configurés. Pour résoudre ce problème, les spécialistes de la sauvegarde proposent l’immuabilité des données où les informations une fois écrite ne peuvent pas être modifiées, supprimées ou falsifiées. Un autre danger est la panne. En effet, S3 a subi par exemple une interruption de services importante en 2017 paralysant de nombreux sites pendant plusieurs heures.
Pour l’avenir, Sébasien Stormacq considère que S3 à vocation à devenir « la fondation universelle de toutes les charges de travail data et IA ». Dans ce cadre, il cite les dernières avancées en la matière : S3 Tables pour gérer les tables au format Iceberg Apache, S3 Vectors présenté en 2025 et qui propose aux entreprises d’utiliser un type de bucket S3 spécialement conçu pour le stockage et l'interrogation de données vectorielles via un ensemble d'API dédiées. Enfin, S3 Metadata automatise la recherche des données en temps réel au sein des datalakes.

Commentaire