La DSI Judith Conklin a une lourde tâche : faire migrer la plus grande bibliothèque du monde vers le cloud. Promue DSI de la bibliothèque du Congrès en septembre après le départ à la retraite de l'ancien DSI Bernard Barton, Judith Conklin dirige la transformation numérique de la Library of Congress (LOC) pendant cinq ans. L’institution doit ainsi migrer des millions de livres, de collections historiques et de documents du Congrès vers un environnement cloud hybride complexe. Cette démarche s'inscrit dans le cadre d'un plan IT stratégique lancé en 2019 visant à numériser et à mettre à la disposition du public, depuis n'importe quel appareil, une grande partie des plus de 170 millions de biens physiques de la LOC.

« Alors que le monde de l'édition et le monde des bibliothèques en général deviennent plus numériques, la Bibliothèque du Congrès le devient aussi », déclare Judith Conklin, qui supervise environ 400 employés au sein de la DSI, dont environ 200 contractuels. La Bibliothèque du Congrès - qui est installée dans trois bâtiments au Capitole, les bâtiments Madison, Adams et Jefferson – « ingère » continuellement de nouvelles données et métadonnées physiques et numériques. Bien que l'objectif ne soit pas de numériser 100 % de ses documents, la transformation reste vaste et complexe, selon M. Conklin. « Il y a des données que nous conserverons sur place et d'autres dans le cloud pour en tirer parti de l'efficacité et de l'élasticité », ajoute-t-elle.

George Westerman, chercheur principal et maître de conférences à la Sloan School of Management du MIT, estime que ce projet ambitieux profitera à l'ensemble de la société. « Il est impressionnant de voir comment le LOC cherche à « ouvrir un coffre aux trésors » par le biais du numérique, afin de mettre les divers artefacts de la bibliothèque à la disposition des citoyens, des enseignants et des innovateurs de tout le pays sans qu'ils aient à se rendre à Washington », déclare M. Westerman.

Une transformation radicale

La LOC a initialement fait appel à Accenture pour l'aider à planifier la transformation de son centre de données, aujourd'hui achevée. Cet effort de trois ans a consisté à déplacer plus de 130 systèmes et applications informatiques de la bibliothèque d'un centre de données datacenter « obsolète » situé dans le bâtiment Madison vers un centre de données Tier III de pointe situé à l'extérieur de Washington, DC, ainsi que vers d'autres centres de données et services cloud gérés par la bibliothèque et connectés via un WAN à chemins multiples.

Avec cet environnement cloud d'entreprise en place, la bibliothèque se concentre maintenant sur l'Enterprise Copyright System (ECS) pour le Copyright Office, sur le projet Integrated Research and Information System (IRIS) pour le Congressional Research Service (CRS), et sur divers projets visant à améliorer la façon dont la bibliothèque accepte, gère et fournit le matériel des collections, notamment un système de gestion du contenu audiovisuel et une nouvelle plate-forme de contenu de bibliothèque. Le projet ECS, qui a attribué les données relatives aux droits d'auteur à l'un des grands fournisseurs de cloud, rendra le processus de demande de droits d'auteur plus facile et plus transparent. « De plus en plus de personnes souhaitent enregistrer leurs matériaux pour le droit d'auteur », explique Judith Conklin, ce qui en fait un candidat de choix pour l'échelle et l'efficacité du cloud.

 

Judith Conklin  a été promue DSI de la bibliothèque du Congrès en septembre 2021. (Crédit : Library of Congress)

L'Office américain du droit d'auteur, qui comprend plusieurs divisions, dont les recommandations de licences et les dossiers publics, s'appuie sur un mélange de processus manuels et de automatisés par des systèmes informatiques qui doivent être modernisés. Le Congrès a alloué 60 millions de dollars à cette tâche et la bibliothèque a un « délai très strict » pour son achèvement, indique la DSI. Le système devrait être opérationnel en octobre 2024. En train de réorganiser les procédures de gestion de projet de la bibliothèque pour l'ère numérique, cette DSI s'est également lancée dans un plan quinquennal de stockage numérique, qui comprend « l'ingestion » ou l'absorption de nombreuses collections « nées numériques » qui arrivent à la bibliothèque en format numérique à partir de diverses sources, ainsi que du contenu numérisé des deux chambres du Congrès.

Un budget qui bloque

La bibliothèque stocke des données numérisées depuis des décennies dans des systèmes traditionnels, y compris de nombreux documents et collections historiques importants. Certains documents numérisés resteront sur place et ne seront pas tous accessibles au public. « L'objectif n'est pas de numériser 100 % de nos collections, ce qui en consterne certains », déclare Mme Conklin, qui fait remarquer que le budget de la bibliothèque ne permet pas de disposer d'un entrepôt de données numériques infini, même si elle note que le Congrès assouplit sa position en rendant davantage de données publiques suite à l'adoption d'une loi il y a deux ans.

La Constitution des États-Unis, par exemple, ne sera pas mise en ligne sur le site web de la Bibliothèque du Congrès, précise Mme Conklin. Cependant, « la transformation numérique de la bibliothèque a eu un impact sur notre compréhension de la Constitution, car un conservateur interne a utilisé l'analyse spectrale d'une version numérisée de la Constitution pour découvrir des modifications qui n'avaient pas été découvertes auparavant ». « Ils ont analysé couche après couche cette ébauche de la Constitution et ils disent avoir trouvé des modifications ... à la Constitution qui n'étaient pas connues », ajoute-t-elle, comparant cette découverte à l'activation rétroactive des changements de piste.

Un pas vers l'IA

La bibliothèque s'intéresse également aux technologies expérimentales d'intelligence artificielle telles que la vision par ordinateur, l'apprentissage automatique et les applications axées sur les clips audio et les arts visuels, dont la plupart sont disponibles sous forme de logiciels libres. Étant donné que les données et les métadonnées qui arrivent à la Library of Congress sont sans fin, le travail de transformation numérique ne sera jamais vraiment terminé. « C'est le combat de tous les DSI », déclare Judith Conklin. Mais il ne fait aucun doute que cette bibliothèque nationale est à des années-lumière de ce qu’elle était lorsqu'elle a commencé sa transformation numérique.