Le Très Grand Equipement Adonis du CNRS vise à préserver, diffuser et partager les savoirs en sciences humaines et sociales dans une logique d'ouverture des données publiques. Il consiste à agréger et diffuser les contenus de 850 sources représentant plus d'un million de publications, puis de nettoyer et normaliser toutes les données, de les enrichir (classification automatique, annotation à la volée), et de les aligner sur des référentiels partagés par la communauté scientifique grâce à une trentaine de traitements distincts avant de les mettre à disposition grâce à un moteur de recherche sémantique. La grande hétérogénéité des sources est une caractéristique forte du projet : entrepôts structurés de données non-structurées (thèses, fonds multimédias, livres...), sites web et blogs, flux RSS... L'unification et l'uniformisation des métadonnées et des accès constituaient le grand défi à relever.

L'ensemble des données d'indexation sont au format RDF afin de permettre une recherche sémantique via le langage SparQL dans un portail dédié. Le projet repose sur les technologies de l'éditeur Antidot, Antidot Information Factory permet de collecter les sources, de les nettoyer et de les enrichir et Antidot Finder Suite rend disponible les données via un portail de recherche sémantique.

Le coût du projet n'a pas été communiqué.