Au cours des dernières années, les applications de computer vision (vision par ordinateur) sont devenues omniprésentes. Des téléphones qui reconnaissent le visage de leurs utilisateurs aux voitures qui commencent à conduire seulee (niveau 3 aujourd'hui), en passant par les satellites qui suivent les mouvements des navires, la valeur de la vision par ordinateur n'a jamais été aussi évidente.

Mais les pénuries de matériel et les interruptions de travail consécutives au Covid-19 mettent à mal la capacité des entreprises à tenir les promesses de la vision par ordinateur, alors même que la pandémie elle-même a accéléré le potentiel de ses cas d'utilisation. Un point sur la manière dont les entreprises de différents secteurs d'activité utilisent la vision par ordinateur pour améliorer et optimiser les processus commerciaux clés, de la vente au détail au diagnostic médical.

Qu'est-ce que la vision par ordinateur ?

La vision par ordinateur est un domaine de l'intelligence artificielle (IA) qui se concentre sur le traitement des images et des vidéos pour en extraire des informations significatives. Parmi les exemples de vision par ordinateur en action, citons la reconnaissance optique de caractères, la reconnaissance d'images, la reconnaissance de formes, la reconnaissance faciale, ainsi que la détection et la classification d'objets. Les secteurs qui font un usage intensif de la vision par ordinateur sont notamment l'industrie manufacturière, la sécurité (dans les rues, les gares et les aéroports), la santé, l'automobile, l'agriculture, la logistique et la chaîne d'approvisionnement. Dans les entreprises, les principaux moteurs du déploiement de la vision par ordinateur sont l'automatisation, l'amélioration des processus et la productivité, ainsi que la conformité aux réglementations et la sécurité.

« Le marché croît si rapidement qu'il est difficile de le suivre », déclare Matt Arcaro, analyste chez IDC, ajoutant que la pandémie a accéléré l'adoption de la vision par ordinateur, par exemple pour surveiller l'occupation des lieux afin d'assurer une distance sociale ou pour savoir combien de personnes utilisent les transports en commun. « Comme il existe de nombreuses caméras de vidéosurveillance, l'intégration de la vision par ordinateur est une mise à niveau élégante », explique Matt Arcaro. « Et, dans de nombreux cas, en raison de mandats gouvernementaux ou de choix organisationnels, les dollars d'investissement ont été là ». Selon IDC, le marché mondial total des technologies de computer vision passera de 760 millions de dollars en 2020 à 2,1 milliards de dollars cette année, avec un taux de croissance annuel composé de 57 % attendu jusqu'en 2025, pour atteindre une valeur de marché totale de 7,2 milliards de dollars. La majeure partie de ce secteur est actuellement sur site, mais IDC prévoit que les déploiements dans le cloud public représenteront 48 % des dépenses en vision par ordinateur d'ici 2025.

Développer et accélérer le traitement et la livraison dans le retail

Le secteur du commerce de détail a connu des perturbations considérables pendant la pandémie, les clients effectuant une plus grande partie de leurs achats en ligne et optant de plus en plus pour la livraison à domicile. Walmart, par exemple, a indiqué que le nombre de clients se faisant livrer leurs achats a été multiplié par six par rapport à la période précédant la pandémie. Pour relever le défi, la chaîne multinationale d'hypermarchés a augmenté sa capacité de ramassage et de livraison de 20 % l'année dernière et prévoit de l'augmenter encore de 35 % cette année. Pour y parvenir, la chaîne de magasins américaine investit dans plusieurs catégories de technologies équipées de la vision par ordinateur, notamment les drones et les véhicules autonomes. En juillet dernier, l'entreprise a annoncé son intention de déployer des robots de Symbotic dans 25 de ses 42 centres de distribution régionaux. Ces robots utilisent la vision par ordinateur, entre autres technologies d'IA, pour déplacer les marchandises dans les entrepôts.

Walmart veut apporter des robots Symbotic à 25 de ses centres de distribution. (Crédit : Walmart)

De son côté, la chaîne de supermarchés américaine Kroger a investi dans des micro-centres de distribution - des entrepôts de distribution à petite échelle, fortement automatisés, situés à proximité du lieu de résidence des clients. L'objectif est de livrer les produits d'épicerie aux clients en 30 minutes seulement, selon la société. Depuis l'été dernier, Kroger a ouvert des installations en Floride, en Alabama, au Texas, en Californie, en Ohio et en Géorgie, et prévoit d'ouvrir 17 autres installations, comprenant à la fois des centres et des rayons, au cours des 24 prochains mois. Sur un site central, plus de 1 000 robots « tournent autour de grilles 3D géantes, orchestrées par des systèmes propriétaires de contrôle du trafic aérien », selon l'entreprise. Au lieu de déplacer des palettes entières de produits, comme c'est le cas dans un centre de distribution régional, les robots vont ici chercher des articles individuels. La vision par ordinateur est utilisée pour trier et emballer les articles de manière à ce que, par exemple, les articles lourds se trouvent en bas et que les sacs aient un poids égal.

Le géant de l'épicerie Kroger a ouvert le premier de ses centres de traitement automatisés des clients à Monroe, Ohio, juste au nord de Cincinnatti. Il s'associe à Ocado pour sa technologie d'automatisation. (Crédit : Kroger)

La computer vision au service de la robotique

La société de vente au détail à la demande Fabric, spécialisée dans les micro-centres de distribution destinés aux détaillants qui ne peuvent pas construire leur propre centre, utilise largement l'automatisation dans ses installations, explique son co-fondateur Ori Avraham. « Nous utilisons la vision par ordinateur comme une capacité clé de notre solution robotique », explique-t-il. « Par exemple, la navigation précise des robots sur le sol est basée sur l'analyse par vision des autocollants au sol. Ce processus se produit en temps réel dans le cadre de la navigation du robot ».

Les bras de prélèvement robotisés utilisent également la vision par ordinateur, dit-il. « Pour cela, nous utilisons un algorithme de segmentation et de classification qui nous permet de prélever et de placer des articles. Ces deux capacités sont cruciales pour nous permettre d'exploiter avec succès nos micro-centres de fulfilment ». Le mois dernier, Fabric a ouvert un centre de micro-expédition à Dallas, qui s'ajoute à ses opérations existantes à New York, Washington, DC et Tel Aviv. Elle a conclu des partenariats avec Walmart, Instacart et FreshDirect et prévoit de doubler son réseau de centres de micro-expédition d'ici la fin de l'année.

Fabric ouvre un micro-centre d'expédition à Dallas, alors que le réseau de vente au détail à la demande se développe pour répondre aux besoins croissants des consommateurs en matière de e-commerce. (Crédit : Fabric)

Rationalisation et amélioration des processus de fabrication

La fabrication est un autre secteur révolutionné par la vision par ordinateur, qui est largement utilisée sur les chaînes de production pour inspecter les produits, automatiser les processus et optimiser la productivité. Mike Griffin, responsable scientifique des données chez Insight, une société de conseil en technologie basée à Tempe (Arizona), a travaillé avec plusieurs clients du secteur manufacturier sur des projets de vision par ordinateur. L'un de ces partenariats consistait à développer un système dans lequel un appareil portable pouvait être utilisé pour prendre la photo d'un bac de produits et fournir automatiquement un décompte du nombre de produits présents dans le bac.

« Le client voulait pouvoir embaucher des personnes handicapées pour effectuer le comptage », explique M. Griffin. « Cela semble être un [système à développer] facile, mais le défi à relever ici est que l'application de vision doit faire plus qu'interpréter ce qu'elle peut voir, mais elle doit aussi interrompre ce qu'elle ne peut pas voir ». Les produits peuvent être empilés les uns sur les autres, ce qui empêche de voir ceux qui se trouvent en bas. Le système de vision par ordinateur devait donc prendre une image bidimensionnelle et la traduire en un modèle tridimensionnel. « Nous devions avoir une précision d'au moins 80 % pour notre inventaire, y compris pour les boîtes emballées dans du plastique transparent et très éblouissantes », explique M. Griffin.

Un domaine mature de l’IA

Pour former le système, les employés ont marché avec des téléphones portables et ont pris des vidéos. Ensuite, un stagiaire a étiqueté manuellement 500 images tirées de ces vidéos, contenant 30 000 boîtes. Si peu d'images ont été nécessaires, c'est parce que la vision par ordinateur est un domaine relativement mature de l'intelligence artificielle, avec de nombreux modèles pré-entraînés. Par exemple, pour créer un nouveau modèle pour un ensemble de données personnalisé, comme les boîtes, on utilise l'apprentissage par transfert. « Nous prenons un modèle qui a été entraîné sur des millions d'images de chats, de chiens, de voitures et autres », explique M. Griffin. « Une grande partie du travail difficile a donc déjà été effectuée. Ensuite, nous pouvons ajouter nos 500 images de boîtes ou nos 1 000 images de pneus à ce modèle et le réentraîner avec cet ensemble d'images supplémentaires ». L'apprentissage par transfert permet de former des modèles plus rapidement, avec des ensembles de données plus petits, que ce qui serait possible autrement.

« Vous pouvez également créer des données synthétiques », ajoute Mike Griffin. « Par exemple, une entreprise de construction voulait identifier les dangers et elle ne disposait que de quelques centaines d'images d'entraînement. Nous avons créé des images supplémentaires, en plaçant ces cônes de danger orange dans, disons, un champ ou un parking, pour augmenter leur ensemble d'images afin de renforcer cette formation ». Une autre utilisation innovante du traitement de l'image dans la fabrication consiste à traduire les données de test en images, puis à utiliser l'apprentissage automatique sur les images générées. « Les échecs de test peuvent être proches les uns des autres, mais il n'est pas évident qu'ils soient liés les uns aux autres jusqu'à ce que vous traduisiez ces données en images », explique Mike Griffin. « Ils sont proches les uns des autres dans l'espace de test, par opposition à être proches les uns des autres dans l'espace physique ».

Améliorer le diagnostic des soins de santé

Dans le secteur de la santé, la vision par ordinateur est largement utilisée pour le diagnostic, notamment pour l'interprétation d'images et de vidéos par l'IA. Elle est également utilisée pour surveiller la sécurité des patients et pour améliorer les opérations de soins de santé, explique Tuong Nguyen, analyste chez Gartner. « Le potentiel de la vision par ordinateur est énorme », dit-il. « Il s'agit essentiellement d'aider les machines à donner un sens au monde. Les applications sont infinies - vraiment, tout ce que vous avez besoin de voir. Le monde entier ». Selon la quatrième enquête annuelle d'Optum sur l'IA dans les soins de santé, publiée fin 2021, 98 % des organisations de soins de santé ont déjà une stratégie d'IA ou prévoient d'en mettre une en place, et 99 % des dirigeants du secteur de la santé pensent que l'on peut faire confiance à l'IA pour l'utiliser dans les soins de santé.

L'interprétation des images médicales est l'un des trois principaux domaines cités par les personnes interrogées dans lesquels l'IA peut être utilisée pour améliorer les résultats des patients. Les deux autres domaines, les soins virtuels aux patients et le diagnostic médical, sont également mûrs pour la vision par ordinateur. Prenons, par exemple, la fibrose pulmonaire idiopathique, une maladie pulmonaire mortelle qui touche des centaines de milliers de personnes dans le monde. Cette maladie n'a pas de cause ni de traitement connus et est très difficile à diagnostiquer. Rien qu'aux États-Unis, environ 40 000 personnes meurent de cette maladie chaque année.

Selon PwC, il faut généralement plus de deux ans pour que la fibrose pulmonaire idiopathique soit diagnostiquée ; à ce moment-là, l'espérance de vie moyenne des personnes finalement diagnostiquées n'est que de trois à cinq ans. L'Open Source Imaging Consortium Data Repository, soutenu par PwC et Microsoft, met en place une plateforme de partage de données d'imagerie anonymes pour faciliter le diagnostic de la maladie. D'ici la fin de l'année, l'organisation prévoit d'avoir 15 000 scans dans sa base de données. Grâce à l'IA et à l'apprentissage automatique, les médecins peuvent diagnostiquer la maladie plus rapidement et avec plus de précision, ce qui leur laisse plus de temps pour traiter les patients. Et, à l'avenir, la même plateforme pourra également être utilisée pour d'autres maladies rares.

D’autres secteurs se tournent vers cette technologie

Dans le secteur automobile, la vision par ordinateur est utilisée pour assister les conducteurs et les surveiller afin de s'assurer qu'ils sont attentifs à la route. Elle est également essentielle pour permettre la conduite autonome des voitures, un moteur de croissance majeur pour l'utilisation de la vision par ordinateur dans l'industrie automobile, selon M. Aracaro d'IDC. Mais il existe un autre marché clé pour la conduite autonome, et la vision par ordinateur en général, selon M. Arcaro : l'agriculture. « John Deere y fait quelque chose de vraiment essentiel », dit-il, en notant que la vision par ordinateur est également utilisée dans l'agriculture pour trier les produits, surveiller la santé des plantes et des animaux, ainsi que pour contrôler et gérer les actifs agricoles.

Dans le domaine de la cybersécurité, l'analyse d'images peut être utilisée pour lire des signatures ou repérer des sites Web de phishing conçus pour ressembler à de vrais sites Web, mais suffisamment différents pour échapper aux autres méthodes de détection. Dans le secteur de l'hôtellerie, la vision par ordinateur permet de suivre les déplacements des clients à bord des navires de croisière afin d'améliorer leur expérience. Du côté des services financiers, le traitement d'images permet de capturer des données dans des documents afin d'améliorer l'efficacité des processus commerciaux. « [La vision par ordinateur] s'étend à presque tous les secteurs », déclare Dinesh Batra, vice-président des données et de l'intelligence artificielle chez Capgemini Invent. « C'est un outil qui a remporté un énorme succès auprès des entreprises ces dernières années - et sa proéminence ne fera que s'accélérer ».

Un avenir visiblement radieux

Et pourtant, malgré l'abondance des cas d'utilisation déjà employés, la vision par ordinateur dispose d'une importante marge de progression. « Nous n'en sommes qu'au début », déclare M. Nguyen de Gartner. « Je m'attends à voir apparaître de plus en plus de fournisseurs dans ce domaine, pour différents éléments de la chaîne de valeur. Il y a encore beaucoup d'opportunités à venir, car la technologie s'améliore, devient plus abordable et plus accessible. Nous commencerons à la voir utilisée partout et en tout lieu ». Mais tout n'est pas rose. Selon le Gartner, les obstacles à l'adoption sont notamment la pénurie de matériel et le manque de capacités de traitement.

Dans certaines applications, des problèmes de précision subsistent. Les systèmes de vision par ordinateur doivent également être intégrés aux chaînes de production ainsi qu'aux systèmes dorsaux, ce qui peut constituer un défi. Ainsi, si la pandémie de Covid-19 a accru la demande et le potentiel de la vision par ordinateur dans les entreprises, les pénuries de matériel et les interruptions de travail consécutives à la pandémie ont empêché de nombreuses entreprises de tirer parti des promesses de cette technologie. Mais si ces problèmes s'atténuent à l'avenir, les entreprises seront certainement prêtes à s'intéresser de près à cette technologie.