On parle beaucoup d'intelligence artificielle capable d'écrire, de parler ou de générer des images. Mais une autre évolution, plus discrète, pourrait transformer profondément l'économie : l'intelligence artificielle qui observe le monde réel. Pendant longtemps, l'IA a en effet surtout traité du texte, des chiffres ou des bases de données. Aujourd'hui, elle commence à interpréter ce que captent les caméras. Cette technologie, appelée vision par ordinateur (computer vision), repose sur des modèles de deep learning, principalement des réseaux de neurones convolutifs (CNN) et, plus récemment, des architectures de type Vision Transformer (ViT). Ces modèles sont entraînés sur des millions d'images annotées et permettent à des systèmes d'analyser automatiquement des images ou des vidéos pour reconnaître des objets, détecter des défauts ou comprendre une situation. Autrement dit, la machine apprend à regarder et à interpréter ce qui se passe dans le monde réel.

Dans de nombreux secteurs, cette capacité ouvre des perspectives concrètes. La gestion de flottes automobiles en constitue un exemple accessible : lorsqu'un véhicule est restitué, des pipelines d'inférence exécutés en edge computing ou dans le cloud analysent automatiquement les images capturées pour détecter rayures, bosses ou défauts de peinture. L'IA compare ces images à l'état initial du véhicule via des algorithmes de différenciation visuelle non supervisée, classe les anomalies par gravité et publie un événement dans le CMMS via webhook. Des dizaines de véhicules peuvent ainsi être inspectés par heure, avec des temps d'inférence inférieurs à la seconde par image.

Des cas d'usage qui couvrent de nombreux secteurs IT

La puissance de la vision assistée par ordinateur tient à sa capacité de généralisation à tout environnement où une caméra peut observer un processus. Dans les centres de données, des systèmes de vision analyse déjà l'état des équipements physiques : identification d'un voyant d'alerte allumé sur un serveur, détection d'un câble mal branché ou d'un rack incomplet. Ces alertes visuelles, historiquement détectées par des techniciens lors de rondes manuelles, deviennent des événements structurés intégrés directement dans les outils ITSM comme ServiceNow ou Jira Service Management.

Dans la logistique et la supply chain, des modèles de détection d'objets analysent en temps réel les flux de colis sur tapis roulant : lecture optique des étiquettes, détection d'emballages endommagés, vérification de la conformité du contenu par rapport au bon de commande. Ces flux s'intègrent nativement dans les WMS (Warehouse Management Systems) via des connecteurs API, réduisant les erreurs de livraison et optimisant le routage. Dans le secteur bancaire et des assurances, la vision par ordinateur accélère le traitement des sinistres : des photos de dommages soumises via une application mobile sont analysées automatiquement, la valeur estimée du dommage calculée et le dossier pré-rempli dans le système de gestion, réduisant les délais d'indemnisation de plusieurs jours à quelques minutes.

Dans l'industrie manufacturière, la vision par ordinateur pilote le contrôle qualité en ligne : des modèles entraînés sur des datasets de défauts métier détectent des anomalies microscôpiques à cadence industrielle, avec des taux de faux positifs maîtrisés grâce au fine-tuning continu. Les résultats alimentent les systèmes MES (Manufacturing Execution Systems) et contribuent à la traçabilité réglementaire. Dans tous ces cas, l'image cesse d'être un fichier passif pour devenir une donnée opérationnelle, intégrée dans les flux ETL et les bus d'événements (Kafka, RabbitMQ) qui structurent le système d'information de l'entreprise.

De l'analyse visuelle à la décision opérationnelle

L'un des apports stratégiques de la vision par ordinateur est qu'elle ne se limite pas à identifier un défaut : elle déclenche une action. Une anomalie classée par un modèle de classification multi-classes peut générer automatiquement un ticket, activer une commande dans l'ERP, déclencher un workflow d'approbation ou alerter une astreinte via PagerDuty. Ces chaînes d'événements, orchestrées via des plateformes BPM ou des outils comme n8n, transforment la vision par ordinateur en composant d'une architecture orientée événements, pleinement intégrée au système d'information.

Pour les équipes IT, cela soulève une question d'architecture concrète : comment exposer ces capacités de vision à l'échelle de l'organisation ? La réponse émerge autour du concept de plateforme MLOps mutualisée, où les modèles de vision sont versionnés, déployés via des conteneurs Docker ou Kubernetes, et exposés comme microservices consommables par les différentes applications métier. L'image ne sert plus seulement à constater un problème : elle devient un déclencheur d'action, traçable, auditable et intégré dans les politiques de gouvernance des données.

Allons plus loin : vers des chaînes de décision automatisées

Si la vision par ordinateur permet déjà d'analyser et d'identifier des anomalies, elle s'inscrit progressivement dans des architectures systèmes plus larges. Imaginons une chaîne complète : une caméra détecte une pièce défectueuse sur un véhicule ou un équipement. Le module de vision par ordinateur analyse l'image, classe l'anomalie et publie un événement dans un bus de messages. Un agent logiciel orchestré via une plateforme d'automatisation (n8n, Zapier entreprise ou un moteur BPM) déclenche alors automatiquement une commande de pièce de rechange dans l'ERP. La livraison est planifiée, et un robot ou un système automatisé effectue le remplacement.

Dans ce scénario, la vision par ordinateur devient le point de départ d'une chaîne d'action autonome, où l'analyse visuelle déclenche directement les décisions opérationnelles. L'humain, lui, ne disparaît pas. Son rôle évolue : plutôt qu'intervenir à chaque étape, il supervise l'ensemble du système, les agents logiciels, les robots et les flux de données. Ce rôle de coordination pourrait faire émerger de nouveaux métiers, à la frontière entre l'ingénierie, l'exploitation industrielle et la gestion d'intelligence artificielle.

Une architecture commune, des usages multiples

Ce qui est remarquable, c'est que tous ces cas d'usage partagent la même architecture de base : un modèle préentraîné sur de larges corpus d'images (COCO, ImageNet ou des datasets spécialisés), affiné par fine-tuning sur des données métier annotées, puis déployé via des outils MLOps (MLflow, Kubeflow, SageMaker) qui assurent le versioning, le monitoring et la réentraînement automatique du modèle en production. Cette standardisation de la chaîne de valeur ML représente une opportunité pour les DSI : mutualiser une infrastructure de vision par ordinateur et l'exposer comme service interne à plusieurs métiers.

Les questions de gouvernance deviennent alors centrales : gestion du consentement et de l'anonymisation des images contenant des personnes (RGPD), politique de rétention des flux vidéo, sécurité des pipelines d'inférence exposés via des API publiques ou internes. Ces sujets, bien connus des équipes sécurité et conformité, prennent une nouvelle dimension lorsque les données traitées sont visuelles et captent des environnements physiques en temps réel.

Une transformation silencieuse, mais structurante

L'intelligence artificielle générative a attiré l'attention du grand public. Pourtant, une autre transformation est en cours, plus discrète mais potentiellement tout aussi structurante pour les directions informatiques. À mesure que les caméras se multiplient dans les environnements professionnels et que les infrastructures cloud permettent de stocker et de traiter des volumes croissants de flux vidéo, la capacité à analyser ces images devient un enjeu stratégique.

Pour les responsables IT, cela soulève des questions concrètes d'architecture : comment intégrer ces modules de vision dans les systèmes d'information existants ? Quelle stratégie de gestion des données images (stockage, rétention, anonymisation) mettre en place ? Quels outils MLOps adopter pour maintenir la qualité des modèles en production ? L'IA qui voit n'est pas seulement une innovation technologique. Elle devient progressivement un composant à part entière du système d'information de l'entreprise. Et dans de nombreux secteurs, elle pourrait bien constituer l'une des prochaines grandes évolutions de l'économie réelle.