Retenir les leçons du passé et s’adapter en conséquence. Tel est le credo de Let’s Encrypt après un épisode malheureux en mars dernier. L’autorité de certification dépendant de l’Internet Security Research Group (ISRG) avait révoqué 3 millions de certificats TLS en un seul jour en raison d’un bug dans le logiciel de validation et d'émission de domaines. Forte de cette expérience, Let’s Encrypt a vu les limites de ses infrastructures et a décidé de la faire évoluer pour se préparer au pire.

Dans un article de blog, Josh Aas, directeur exécutif de Let’s Encrypt, a indiqué que quotidiennement le service émet environ 2 millions de certificats et un peu plus de 145 millions annuellement. Mais en cas d’incident, il pourrait être nécessaire de tous les remplacer en même temps et, ce, en moins de 24 heures. Pour répondre à ce défi, l’infrastructure IT a été mise à jour grâce au financement d’entreprises comme Facebook, AWS, Mozilla, GitHub, Red Hat et d’autres. Le matériel a été fourni par Cisco, Thales et Fortinet, assure l’autorité.

Des serveurs sous AMD Epyc plus musclés

Dans le détail, le dirigeant souligne que les efforts se sont concentrés autour de plusieurs domaines : les performances des bases de données et des modules de signature cryptographique (HSM), mais aussi de la vitesse du réseau interne et la bande passante. Sur la base de données, « le cœur du service » est « très gourmand en écriture et en lecture » admet Josh Aas. Les anciens serveurs (équipés de puces Intel Xeon E5-2650 v4, 24 coeurs) ne pouvaient pas gérer la réédition massive en un seul jour.

Ils ont donc été remplacés par des serveurs Dell exploitant deux puces AMD Epyc 7542, 64 cœurs. La RAM a été doublée pour atteindre 2 To. Mais pour Josh Aas, ce qui est intéressant, c’est que « chaque processeur Epyc supporte 128 lignes PCIe 4 et qu'il est possible d'intégrer 24 cartes NVMe de 6,4 To pour plus de performance sur les I/O ». Sur la protection des données, le dirigeant indique être passé au systèmes de fichiers ZFS, car « il n’y a pas de RAID viable pour le NVMe ». Précisons que ce problème se pose pour AMD seulement, Intel a corrigé son firmware Xeon pour faire du RAID en NVMe.

Une bascule sur le réseau fibre et un renforcement du HSM

A l’origine, Let’Encrypt disposait d’un réseau sur Ethernet Gigabit. « Nous avons d’abord envisagé de passer en 10GbE, mais nous avons appris que miser sur le 25 GbE en fibre optique n’était pas plus coûteux », se souvient Josh Aas. Cisco a généreusement donné la plupart des commutateurs et des équipements réseau pour cette mise à niveau. Pour l’anecdote, l’équipementier avait en 2014 donné un commutateur en 10G fibre, mais les armoires de Let’s Encrypt étaient trop courtes pour l’accueillir.

Le jour où Let’s Encrypt devra réémettre 200 millions de certificats, il faudra que les HSM (hardware security modules) Luna dans les datacenters effectuent 600 millions d’opérations de signatures cryptographique en 24 heures : révocation de la signature, remplacement et validation du remplacement pour chaque certificat. En 24 heures, les anciens HSM ne pouvaient traiter au maximum qu’environ 190 millions de signatures. Pour aider l’autorité, Thales a fait don de nouveaux HSM avec une capacité de 864 millions d'opérations de signature par jour, à partir d'un seul centre de données.

Enfin, dans la modernisation de son infrastructure IT, l’autorité de certification a augmenté sa bande passante pour accroître sa capacité à synchroniser et à analyser ses bases de données entre les datacenters et le cloud en cas d’incident. Pour cela, Fortinet a offert du matériel capable d’améliorer ces besoins de connexions et de protection. Par contre, l'autorité ne donne aucun chiffre sur le renforcement de la bande passante.