Le groupe d’informations financière Dow Jones, créé il y a plus de 130 ans, a développé un service d'exploitation de big data mis à la disposition de ses clients pour réaliser des analyses avancées. Lancé en mars 2017, ce service baptisé DNA - pour Data, News and Analytics platform - est toujours proposé en mode bêta. Il permet aux clients de Dow Jones de réaliser des extractions de jeux de données volumineux provenant de plus de 30 000 sources. La plateforme DNA agrège les contenus des publications de Dow Jones avec les contenus de sources tierces. Les extractions de données peuvent porter sur des données pré-existantes ou être délivrées en temps réel. L’analyse des big data ainsi récupérées permet d’identifier des tendances marchés, de développer des modèles de trading dans l'investissement boursier, de faire de la veille concurrentielle, de détecter des opportunités d'investissement ou d’évaluer des risques en temps réel.

Ainsi, les acteurs de la surveillance biologique, les groupes de réassurance ou encore les marchés de capitaux figurent parmi les plus gros clients de DNA. « Il y a deux ans, il nous est apparu très clairement, à la fois en interne et en provenance du marché, que nous avions vraiment besoin de pouvoir déverrouiller tous les actifs de données que nous avions afin qu’il soit plus facile pour nos clients en entreprise d’y accéder de façon programmatique », a expliqué Niranjan Thomas, directeur général des partenariats technologiques autour de la plateforme DNA. Cela s’est d’abord fait via des API, avec des fils de présentation des informations.

Des big data pour les projets d'apprentissage machine

Dow Jones gère plusieurs services de données bien établis dont Newswire ou Factiva.com, un agrégateur d’actualités économiques premium, ainsi que des produits spécialisés tels que VentureSource, son outil de recherche sur les sociétés financées par les investisseurs en capital risque. La création de DNA a été précipitée par l’évolution du mode d’utilisation des données dans le cloud par les clients. « C’est, de loin, ce qui a d’abord tiré l’appétit et la capacité de grandes entreprises clientes d’être capables de consommer de très grands volumes de données et d’extraire véritablement pour elles un niveau d’analyse qu'elles n’avaient pas été en mesure d’obtenir auparavant », expose Niranjan Thomas.

La disponibilité de la plateforme dans le cloud signifie que des intervenants tiers peuvent télécharger des millions ou même des dizaines de millions de documents à la fois, ce qui est idéal pour les projets d’apprentissage machine. Le service DNA propose à la fois des API permettant de récupérer les données en streaming ou sous la forme de snapshots sur les données historiques. Dans le 2ème cas, il est possible d’extraire très rapidement les données sur des volumes très importants, tandis que les capacités de streaming permettent aux organisations d’introduire des données en temps réel dans leurs environnements.

Une cible de data scientists et de développeurs

Parallèlement, la plateforme propose, à la fois aux entreprises et aux utilisateurs individuels, des API de recherche pour retrouver des articles et des données spécifiques. Alors que les services d'extraction de données sont destinés à des data scientists, les API s’adressent davantage à des développeurs d’applications et peuvent être intégrées dans des contenus, par exemple un article à consulter sur un terminal mobile.

A côté des données venant directement de Dow Jones, le service d’abonnement payant fournit aussi les informations publiées par The Wall Street Journal (édité par Dow Jones) ainsi que des données licenciées à des groupes tiers comme Thomson Reuters et le New York Times. Le secteur de la réassurance, qui investit largement dans l’analyse de données, est l’un des grands utilisateurs du service DNA. Niranjan Thomas l’explique par un boom dans le volume des réclamations à traiter sur l’assurance dommages au cours des dernières années. « C’est dans ce domaine qu’ils tirent avantage des jeux de données de DNA pour faire des analyses plus approfondies. Cela les aide à mieux comprendre les profils de risque et, par la suite, à mieux gérer le risque ».

Surveiller les signes précoces de propagation d'épidémies

L’une des autres utilisations majeures de la plateforme est la surveillance biologique. Niranjan Thomas explique comment un client majeur, en Amérique du Nord, a tiré parti de l’outil. « Ils surveillent les signes précoces de propagation de maladies, et donc, tout particulièrement, la survenue de conditions médicales spécifiques. L’organisation en question a un mandat très large qui ne se limite pas à l’Amérique du Nord mais s’étend aux organisations de santé mondiale qui surveillent certaines épidémies ». Cela inclut des virus comme Zika. Cela nécessite d’explorer un grand nombre de sources de données, incluant des publications d’actualités telles que celles fournies par Dow Jones.

Dans le domaine des marchés de capitaux, le recours à la plateforme DNA est encore plus évidente. Dans ce secteur, l'utilisation du service de Dow Jones combine une approche quantitative et fondamentale qualifiée de « quantamentale », indique Niranjan Thomas. Derrière ce terme, le directeur général des partenariats technologiques explique que les acteurs des marchés de capitaux recherchent le type de facteurs non quantitatifs susceptibles d’influencer les stratégies d’investissement.