Le format DocLang structure les documents pour l'IA

Un groupe de travail composé de plusieurs sociétés dont IBM, Nvidia ou Red Hat planche sur un standard open source de format nommé Doclang pour adapter les documents à l'IA. Une bonne initiative qui pose néanmoins des interrogations sur la gouvernance.

Partant du constat que les IA ont du mal à comprendre les documents (multitude de données non structurées), un groupe de travail a décidé d’élaborer un format de document adapté à ces systèmes. Nommé Doclang, ce projet comprend plusieurs membres dont IBM, Nvidia ou Red Hat et il est hébergé au sein de l’initiative LR AI & Data de la Fondation Linux. L’ambition est donc de créer un format de document ouvert, universel et IA natif afin d’améliorer la manière dont les entreprises préparent, échangent et gèrent les données documentaires destinées aux systèmes IA. Abbyy et Human Signal participeront également à son développement, et d’autres contributeurs sont les bienvenus. « Les entreprises travaillent aujourd’hui dans un environnement fragmenté de formats de documents, notamment des PDF, des JPEG et d’autres types de fichiers conçus principalement pour la lecture humaine plutôt que pour l’interprétation par l’IA », a déclaré le groupe dans son communiqué de lancement. « Ce décalage peut introduire de la complexité, augmenter les coûts et réduire la fiabilité lors de l’extraction de sens à partir de documents d’entreprise, alors que les sociétés s’appuient de plus en plus sur l’IA générative et les systèmes agentiques », a-t-il ajouté.

Selon Mark Collier, directeur exécutif de LF AI & Data, l'objectif du groupe de travail sur la spécification DocLang est de « développer un standard interopérable et indépendante des fournisseurs qui aide les entreprises à préparer les données documentaires pour l'IA de manière plus fiable, plus transparente et à grande échelle ». À l’instar du JSON pour les données, DocLang définit un format structuré et lisible par les machines pour les documents de tout type que n’importe quel outil peut implémenter et que n’importe quel pipeline peut exploiter. Il s’appuie sur DocLing, une boîte à outils de traitement de documents hébergée par LF AI & Data, capable de transformer des PDF, des documents de traitement de texte ou des feuilles de calcul en données structurées.

Faire évoluer les standards pour l’IA

« Un outil tel que DocLang est nécessaire », a estimé Carmi Levy, analyste technologique indépendant. « Les standards documentaires existants ont fait un travail admirable en permettant aux éditeurs de collaborer en toute confiance pendant des décennies, mais il devient de plus en plus évident qu’ils ont désespérément besoin d’une mise à jour alors que l’IA redéfinit les règles régissant la manière dont le travail est effectué », a-t-il expliqué. « Les types de documents largement statiques peuvent s’avérer quelque peu limitatifs alors que l’IA redéfinit le mot même de document », a-t-il ajouté. « À bien des égards, les documents de l’ère de l’IA sont bien plus itératifs et dynamiques qu’auparavant, et les définitions doivent évoluer avec le temps. Les documents avec lesquels nous vivons actuellement n’ont tout simplement pas été conçus pour cette technologie », a-t-il fait remarquer.

Dans ce contexte, il pense que « DocLang représente l’un des premiers et meilleurs espoirs de parvenir à établir une sorte de base de référence pour les normes documentaires, qui, espérons-le, rendra les flux de travail plus intelligents, plus efficaces et moins risqués qu’aujourd’hui. » Selon M. Levy, « l'adoption d’une approche open source et indépendante des fournisseurs garantit que la volonté collective primera sur les besoins de fournisseurs spécifiques », a-t-il fait valoir, ajoutant que « les efforts antérieurs de standardisation autour des réseaux, de la documentation, du Web et du cloud ont alimenté le paysage numérique fluide qui définit la vie moderne. » Enfin, selon M. Levy, un standard de documentation centrée sur l’IA transposera cette réalité dans la prochaine génération de technologies.

Une question de gouvernance

« Le concept même des LLM implique l’utilisation du langage naturel. L’ordinateur est censé nous comprendre sans que nous ayons à modifier notre syntaxe ou notre langage. Imposer une syntaxe aux utilisateurs, c’est exactement ce que nous faisons aujourd’hui avec le référencement naturel (SEO) et les langages de programmation plus avancés », a souligné Jason Andersen, analyste principal chez Moor Insights & Strategy. « Je suis favorable à l’automatisation d’un outil comme DocLang, ce qui semble être l'intention, où la norme peut s’appliquer à l’ingestion de contenu », a-t-il indiqué. Celui-ci imagine le cas d’usage suivant : lors du téléchargement d’un document vers un agent, une compétence pourrait être exécutée pour prétraiter le document au format standard DocLang, ce qui économiserait des tokens. « C'est logique », a-t-il déclaré, ajoutant qu'il trouvait ce processus positif « s’il permettait de générer des résultats, sous forme de visualisation par exemple, qui peuvent être partagés en dehors d'un outil IA ». C'est d'ailleurs pour cette raison qu’il apprécie l’API WebMCP, « car il suffit d'ajouter du code à la page, comme du CSS ou du JavaScript, et l'utilisateur, en l'occurrence un navigateur ou une compétence IA, est mieux équipé pour gérer le site. »

Selon M. Andersen, l’essentiel c’est que ces normes doivent préserver le fait que les humains peuvent toujours faire ce qu’ils veulent, et n’ont pas besoin de connaître le codage pour être compétents. « En termes de gouvernance, je ne suis pas sûr que cela ait de l’importance », a-t-il estimé. Cependant, Yaz Palanichamy, analyste de recherche senior chez Info-Tech Research Group, a anticipé des problèmes de gouvernance découlant de l’utilisation de DocLang. Selon lui, l’adoption de cette norme exigera des entreprises qu’elles mettent en place des contrôles afin d’étendre son utilisation de manière responsable et sécurisée.