La semaine dernière, David Kriesel, doctorant en informatique à l'Université de Bonn, s'est rendu compte que certains scanners Xerox pouvaient interpréter différemment les données sur des documents au moment de leur reproduction. Selon l'informaticien, qui a publié les résultats de ses tests sur son site Internet, c'est le paramétrage de la qualité d'image et de la compression qui sont à l'origine de l'erreur. Hier, Xerox a reconnu le problème, conseillant à ses clients d'utiliser le réglage de scanner standard s'ils voulaient éviter le problème.

David Kriesel raconte qu'il a remarqué le problème une première fois sur un Xerox WorkCentre avec lequel il a numérisé des plans d'architecte en PDF. Sur ces tracés du rez-de-chaussée d'un immeuble, chaque pièce comportait un carré avec son attribution et sa surface en mètres carrés : 14,13 m2, 21,11 m2 et 17,42 m2. À première vue, les reproductions PDF de ces plans paraissaient identiques aux originaux, mais un examen plus approfondi a révélé que ce n'était pas vraiment le cas. Dans la version numérisée, les surfaces des trois pièces étaient incorrectes. Le doctorant a décidé d'étudier la question de plus près. 

Un problème lié à la compression d'image JBIG2

Avec un document scanné en mode TIFF, pixel à pixel, la copie obtenue était identique à l'original. Mais avec la compression d'image, des choses bizarres ont commencé à se produire. Numérisé avec un périphérique Xerox WorkCentre 7535, le même document affichait une surface de 14,13 m2 pour toutes les pièces. La même chose s'est produite avec un Xerox WorkCentre 7556. Dans un second fichier, réalisé avec la même machine, David Kriesel a remarqué que deux chambres affichaient des surfaces de 17,42 m2 et une de 21,11 m2. Lors d'un troisième scan, deux chambres affichaient une surface de 14,13 m2 et une de 17,42 m2.

Pour s'assurer que le problème n'était pas lié à la reconnaissance optique de caractères, l'informaticien a désactivé la fonction. « Il semble qu'il y a une corrélation entre la taille de la police et la résolution dpi demandée pour le scan. J'ai pu reproduire l'erreur sur des scans en 200 dpi sans OCR, sur des documents où le texte était en Arial 7 points et les chiffres en Arial 8 points », a-t-il expliqué sur son blog. Après la mise en ligne de ces informations, le doctorant a reçu des mails d'autres utilisateurs Xerox qui ont pu reproduire l'erreur et lui apporter quelques indices. Finalement, l'informaticien a pu conclure que le problème venait de la compression d'image JBIG2, ce que Xerox a confirmé par la suite.

Des machines pré-paramétrées en usine

Afin de réduire l'espace disque occupé par les fichiers des documents numérisés, le système de compression recherche des similitudes dans l'image qu'il a à traiter. Et, quand il les trouve, il les réutilise dans tous les espaces identiques. Parce que les chiffres du document utilisent une police de petite taille, le scanner les interprète comme des données identiques. « Le problème est lié au niveau de compression et à la résolution choisis dans les paramétrages », a déclaré Xerox dans un communiqué mardi. « En usine, ces machines sont pré-paramétrées. Le niveau de compression et la résolution standards permettent d'obtenir des scans optimisés pour l'affichage et l'impression, tout en gardant une taille de fichier raisonnable. En général, avec ces paramètres par défaut, il n'y a pas de problème de substitution de caractères. Mais l'erreur peut se produire si l'on change ces paramètres, notamment si l'on choisit une qualité et une résolution inférieures. C'est la raison pour laquelle nous recommandons l'usage des valeurs par défaut », a expliqué Xerox.

Selon Xerox, le mode d'emploi de ces machines précise depuis des années qu'une substitution de caractères peut se produire si la qualité n'est pas réglée sur « élevée » et si les paramètres de compression ne sont pas optimums. Au moment du choix, l'interface web du copieur met aussi en garde l'utilisateur : « La qualité 'normale' produit des fichiers de petite taille. Elle met en oeuvre des techniques de compression avancées. Dans ce cas, la qualité d'image est généralement acceptable, mais la qualité du texte est moins bonne et des erreurs de substitution de caractères peuvent survenir lors de la reproduction de certains types de documents ».