Google commence à indexer les documents scannés. Le moteur de recherche a mis en place les ressources nécessaires pour reconnaître les caractères (OCR) contenus dans les documents numérisés et encapsulés au format PDF. Google précise que les internautes peuvent consulter le texte (et non l'image) en cliquant sur le lien "View as HTML - Version HTML" de leurs pages de recherche. Google ne donne aucune information sur l'état d'avancement de cette indexation d'un nouveau genre. Ni sur la prise en compte d'une autre langue que l'anglais. Des défenseurs des Libertés publiques, comme public.resource.org, dénoncent la menace que fait peser cet OCR sur des données personnelles. Ils visent en particulier les jugements rendus. Ils contiennent des informations comme le numéro de sécurité sociale. Aux Etats-Unis, ce numéro est fréquemment utilisé pour identifier un individu.
Google reconnaît les caractères des documents numérisés
0
Réaction
Newsletter LMI
Recevez notre newsletter comme plus de 50000 abonnés
Suivre toute l'actualité
Newsletter
Recevez notre newsletter comme plus de 50 000 professionnels de l'IT!
Je m'abonne
Commentaire