En août dernier, l’utilitaire d’extraction de documents XML Apache Tika a corrigé la faille référencée CVE-2025-54988, dont la gravité était évaluée à 8,4. Elle affecte le tika-parser-pdf-module utilisé pour traiter les fichiers PDF dans Tika de la version 1.13 à la 3.2.1 incluse. Ce module de l'écosystème plus large de Tika sert à normaliser les données provenant de 1 000 formats propriétaires pour que les outils logiciels puissent les indexer et les lire. Les responsables du projet Tika ont alerté sur le fait que la faille « est plus étendue et plus grave qu’on ne le pensait initialement ». Cette évolution est référencée CVE-2025-66516 avec une gravité maximale de 10.
Elle est soumise comme son homologue à des attaques par injection XML d’entités externes (XXE), un problème récurrent pour ce type d’utilitaires. Dans le cas de la vulnérabilité CVE-2025-54988, elle donne la possibilité à un attaquant d'exécuter ces attaques en cachant des instructions XML Forms Architecture (XFA) dans un PDF frauduleux. Ainsi, « un pirate pourrait lire des données sensibles ou déclencher des requêtes malveillantes vers des ressources internes ou des serveurs tiers », indique les responsables du projet Tika. Les cybercriminels pourraient exploiter cette faille pour récupérer des données à partir du pipeline de traitement des documents de l'outil, puis les exfiltrer via le traitement par Tika du PDF frauduleux.
Une seconde CVE plus étendue
Les responsables de la maintenance ont réalisé que la faille d'injection XXE ne se limite pas à ce module. Elle affecte d'autres composants de Tika, à savoir tika-core, versions 1.13 à 3.2.1, et tika-parsers, versions 1.13 à 1.28.5. De plus, les anciens analyseurs Tika, versions 1.13 à 1.28.5, sont également concernés. De manière inhabituelle et déroutante, cela signifie qu'il existe dorénavant deux CVE pour le même problème, la, CVE-2025-66516, étant une extension de la première. On peut supposer que la publication de la deuxième CVE a pour but d'attirer l'attention sur le fait que les personnes ayant corrigé la vulnérabilité CVE-2025-54988 sont toujours exposées à un risque en raison des composants vulnérables supplémentaires répertoriés dans le CVE-2025-66516
À ce jour, rien n'indique que la faille d'injection XXE mentionnée dans ces CVE soit exploitée. Cependant, cela pourrait changer rapidement si la vulnérabilité fait l'objet d'une rétro-ingéniérie ou si des prototypes d’exploit apparaissent. La faille CVE-2025-66516 a été affectée d’un score de gravité inhabituel de 10, ce qui rend son correctif prioritaire pour toute personne utilisant ce logiciel dans son environnement. Les utilisateurs doivent effectuer la mise à jour vers la version 3.2.2 de Tika-core, la version 3.2.2 de tika-parser-pdf-module (module PDF autonome) ou la version 2.0.0 de tika-parsers s'ils utilisent une version ancienne. Cependant, l’application du correctif sera surtout utile aux développeurs pour les applications connues pour avoir recours à Apache Tika. Le danger est que son usage ne soit pas répertoriée dans tous les fichiers de configuration des applications, ce qui crée un angle mort où son utilisation n'est pas détectée. Pour mettre fin à cette incertitude, la seule mesure d'atténuation consisterait pour les développeurs à désactiver la capacité d'analyse XML dans leurs applications via le fichier de configuration tika-config.xml.

Commentaire