Editeur de référence de données statistiques et socio-économiques, l’OCDE publie tous les ans environ 250 titres de diverses natures, entre livres, statistiques et rapports annuels. Ses publications s'adressent à un vaste public constitué de partenaires (agences de presse comme Reuters et Bloomberg, sites extérieurs comme Google Play, Scribd et RePEc ou services tels que Summon et Ex Libris) et de 15 000 institutions au niveau mondial (universités, gouvernements, etc.) abonnées à sa plateforme OECDiLibrary. Lorsque la création d’un référentiel central de dissémination de ces contenus a été décidée, avant 2010, l’utilisation d’une base de données XML massive s’est rapidement imposée comme le meilleur choix, se souvient Pascale Cissokho-Mutter, responsable de la gestion de l'information des éditions OCDE. Le système existant s’appuyait jusque-là sur une base de données relationnelle, mais les exigences de mise à disposition rapide des informations nécessitait de le faire évoluer.

Outre la diffusion de ces publications, il fallait aussi en faciliter l’accès avec des fonctions de recherche avancées et simplifier leur réutilisation par l’Organisation de coopération et de développement économiques. « L'idée était d’avoir un hub et de porter nos contenus dans des canaux différents selon l’audience », explique Toby Green, chef des publications de l'OCDE. Ce référentiel de dissémination, baptisé OECD.Kappa, a démarré de façon incrémentale par l’intégration de 4 700 résumés de livres, réalisée en moins de six mois. Cette première étape a permis d’augmenter la productivité des gestionnaires de contenus qui devaient jusque-là charger chaque résumé un par un et qui les téléchargent maintenant en 30 langues en trois clics. OECD.Kappa stocke déjà 22 000 publications avec tous leurs composants. L’équipe poursuit la migration des données. A terme, le hub hébergera aussi les documents de travail de l’OCDE, les articles, les tableaux statistiques et les indicateurs contenus dans les 400 bases de données de l’organisation.

Mise en place d'une distribution en mode pool via des API

En remontant le fil du projet, Pascale Cissokho-Mutter récapitule certaines de ses contraintes : « Nous avions plusieurs défis à relever : standardiser les contenus dans un format très structuré, les distribuer dans un mode API et gérer du multilingue dans la même base, notamment ». Il fallait une base de données NoSQL pour englober des données structurées et non structurées et disposer du maximum de flexibilité. Dans le cadre d’un appel d’offres, l’OCDE retient la solution développée par l’éditeur MarkLogic, avant de démarrer le projet en 2011. Il n’y a alors pas beaucoup de base XML massive qui présentent ce niveau de maturité, pointe la responsable de la gestion de l'information. Contrairement à la plupart des bases NoSQL disponibles en open source, celle de MarkLogic reste propriétaire. Les développements autour de la plateforme démarrent en mode agile pour donner à l’équipe interne le temps de monter en compétences. L’OCDE gère des contenus de formes variées. « Nous agrégeons dans la même base des rapports analytiques et statistiques, nous référençons la publication, mais aussi ses chapitres, c’est très granulaire », décrit P. Cissokho-Mutter. « Nous avons décidé de commencer avec un projet incrémental sur des contenus relativement simples et autonomes », en l’occurrence, les résumés de livres qui constituent des produits dérivés autonomes. Une application de back office apporte aussi une interface utilisateur pour consulter Marklogic et développer des API autour de la base NoSQL.

La solution technologique retenue a apporté à l’équipe interne (3 ressources à plein temps dont une en régie) la capacité à développer des services et des produits beaucoup plus vite qu’auparavant, à augmenter sa productivité et à rationaliser les processus d’export. « Notre time to market est beaucoup plus rapide », indique Pascale Cissokho-Mutter, qui insiste aussi sur les fonctionnalités de recherche puissantes mises à la disposition des éditeurs et gestionnaires de contenus. De son côté, Toby Green met également l’accent sur la flexibilité apportée par un hub qui permet d’héberger différentes catégories de contenus - livres, revues, bases de données, documents de travail – y compris ceux qui ne sont pas standards, et de prendre en compte les types de contenus qui pourront être créés à l’avenir. « Nous avons commencé des projets d’enrichissement sémantique avec Temis », ajoute-t-il. « Nous explorons comment utiliser au mieux les technologies de Temis et Marklogic pour des contenus à valeur ajoutée sur nos plateformes », explique le responsable de publication. Pour l’organisation, le challenge consiste à maintenir son offre tout en la faisant évoluer.

Des partenariats pour partager le hub avec d'autres organisations

Aujourd’hui, les différents canaux de dissémination du hub sont alimentés en mode push dans un format XML. « Nous mettons nos contenus à leur disposition, mais avec la nouvelle application, nous souhaitons un mode pool qui nous permettent d’exposer nos API et nos méta-données pour que nos partenaires viennent se servir dans notre hub », explique Pascale Cissokho-Mutter. « L’un des bénéfices de Marklogic, c’est de pouvoir basculer dans ce mode distribution pool. Cela permet de développer moins de canaux d’exportation en termes de productivité et de réactivité ».

Par ailleurs, l’OCDE a lancé un programme de partenariat visant à partager sa plateforme avec d’autres organisations internationales, comme The Commonwealth, Nordic Council of Ministers et l’ONU. Celles-ci lui fournissent leurs contenus et l’OCDE les intègre à son référentiel - avec les métadonnées - ce qui permet notamment de partager les coûts, explique Toby Green. « En février, nous avons lancé la bibliothèque UN-iLibrary.org, un projet qui représente l’intégration de 800 livres réalisé en 6 mois ». A suivre, l’intégration de 3 000 titres pour l’ONU. « A terme, nous aurons migré 250 000 contenus d’ici la fin de l’année ».