Les Archives nationales ont accueilli ce 23 novembre les premières archives numériques encodées sur ADN. « Le cœur de notre mission est d’assurer la transmission de ces documents, de les conserver pour les consulter plus tard » a annoncé Bruno Ricard, directeur des Archives nationales depuis le 1ᵉʳ septembre 2019. « C’est un véritable défi pour le papyrus, le parchemin, le papier, mais aussi le numérique ». Aujourd’hui, plus de 70 To d’archives numériques sont d’ores et déjà conservées, qu’il s’agisse d’audio ou de vidéo, et la croissance de ces données prévoit d’être exponentielle. « Bientôt, nous approcherons les 200 To de données ». A cet effet, des chercheurs de Sorbonne Université et du CNRS, Stéphane Lemaire et Pierre Crozet, travaillent sur un projet breveté de stockage d’information numérique sur ADN. Avec pour objectif de répondre à une problématique claire : celle de la conservation stable, durable, et écologique des données. Preuve de concept de leur technologie : l’encodage de deux textes de l’histoire de France, la déclaration des droits de l’homme et du citoyen (1789) et la déclaration des droits de la femme et de la citoyenne (1791).

Ces capsules d'aluminium contiennent la déclaration des droits de l’homme et du citoyen (1789) et la déclaration des droits de la femme et de la citoyenne (1791) encodés sur ADN. (Crédit : Stéphane Lemaire / CNRS - Sorbonne Université)

« Les données sont le carburant de l’intelligence artificielle. La datasphère est en croissance exponentielle et devrait atteindre 175 Zo d’ici 2025 » détaille Stéphane Lemaire, directeur de recherche CNRS au Laboratoire de biologie computationnelle et quantitative. En 2020, cela représentait 45 Zo. Les supports actuels de conservation possèdent plusieurs inconvénients de taille : ils sont fragiles, volumineux et énergivores. Leur impact, proportionnel à la quantité de données, tend à augmenter. Alors que 70 % des données mondiales sont des archives, on note que depuis 2010 la demande est supérieure à l’offre, amenant à repenser complètement le stockage des données. Pour faire évoluer ce projet, l’équipe de chercheurs a fondé une start-up, Biomemory, qui vise à développer et commercialiser la technologie DNA Drive. Celle-ci apporterait une capacité illimitée de stockage, avec de nouvelles approches biologiques telles que la copie ou l’édition, et peut être stockée dans des capsules métalliques miniatures.

Des projets concrets déjà existants

Utilisant la biologie, l’équipe de chercheurs a exploité l’ADN – connu pour sa stabilité depuis plusieurs dizaines de milliers d’années - comme support de conservation des données. Appelée DNA Drive, cette technologie de stockage présente de sérieux avantages par rapport à la bande et au disque optique: durable, également non énergivore, extrêmement compacte, elle est également compatible avec tout type d’information numérique et permet d’encoder tous les systèmes de fichiers. Concrètement, les chercheurs ont transformé les 0 et 1 en une série de lettres qui constituent la base moléculaire de notre ADN : l'adénine (A), la thymine (T), la guanine (G) et la cytosine (C). La synthèse chimique de la séquence ADN est alors générée sur des fragments d’ADN appelés oligonucléotides. Lors de la formation d’une molécule, ces lettres en séquences créent un code indiquant à l’organisme comment se former. L’ensemble des molécules d’ADN constitue le génome, et par conséquent le corps humain. « 45 Zo peuvent tenir dans 100g d’ADN » précise Stéphane Lemaire, ajoutant, qu'encapsulé, l'ADN lyophilisé est à l’abri de l’eau, la lumière et l’air. Pour le décodage des séquences ADN, il convient d'ouvrir la capsule, ajouter une goutte d'eau afin de le réhydrater. Pour relire l'information encodée, une partie de l'ADN est déposée sur un séquenceur. La technologie DNA Drive, et plus précisément son algorithme, est utilisé pour convertir la séquence obtenue en information binaire, soit le même système d'encodage mais inversé.

Chaque capsule peut contenir une quantité d'ADN lyophilisée correspondant à 5 000 To de données numériques. (Crédit : Philippe Tran)

L’idée avait été évoquée une première fois en 1959 par le physicien Richard Feynman, puis en 2016 par George Church, chimiste, généticien et ingénieur en biologie moléculaire. Celui-ci démontre alors de manière significative, pour la première fois, qu’il est possible d’utiliser une synthèse chimique pour coder des informations numériques sur ADN. De l’autre côté de l’Atlantique, d’autres chercheurs travaillent déjà sur ce sujet : il s’agit du Laboratoire national de Los Alamos. Les chercheurs de ce laboratoire ont développé un logiciel de traduction, ADS Codex (Adaptive DNA Storage Codec). Il est alors possible de décoder des bits numériques en nucléotides et vice-versa ensuite si besoin. Le système de transformation est le même que celui utilisé pour le projet DNA Drive. D’autres géants travaillent déjà sur cette traduction de données, à l’exemple de Microsoft qui démontrait déjà en 2019 ses avancées au sujet d’un système similaire, entièrement automatisé.

Une technologie qui a ses limites

Le travail de recherche sur ADS Codex permettrait à court terme d'écrire 1 To, et de lire 10 To en 24 heures pour la somme de 1 000 dollars. Celui de DNA Drive, prend actuellement plusieurs jours pour être encodé et environ 1 heure pour être lu - la partie lue n’étant plus utilisable ensuite. Il possède par ailleurs un coût très élevé, 1 000 dollars pour 1 Mo. Le projet, qui a bénéficié de financements de la part de Sorbonne Université, CNRS, et SATT Lutech (société d’accélération du transfert de technologie de l’alliance Sorbonne Université), a engendré des coûts estimés à 600 000 euros.

Les deux textes historiques stockés sur ADN et encapsulés sont une première pour une institution publique. « Chaque capsule contient plus de 100 milliards de copies du fichier sous forme d’ADN » précise Stéphane Lemaire. L’équipe a ouvert des capsules à plusieurs reprises, séquencer l’ADN contenu et vérifier que le fichier pouvait être récupéré avec une fidélité de 100 %. A noter que le projet a également bénéficié du partenariat avec Twist Bioscience, entreprise américaine spécialiste de la synthèse d’ADN, et avec Imagene, entreprise française spécialiste de la conservation à long terme (encapsulation) de l’ADN.