Quelques jours après avoir lancé ses services Azure Media Analytics, destinés à gérer et analyser d’importants volumes de fichiers vidéos, en accédant notamment à des fonctions de reconnaissance vocale et de d'identification visuelle, Microsoft leur ajoute un composant permettant de convertir en texte les informations écrites figurant dans ces fichiers multimédias. Proposé pour l’instant en préversion privée, Azure Video OCR détecte les contenus dans les vidéos et génère les fichiers texte correspondants. On peut alors en extraire automatiquement les métadonnées significatives et, en conjonction avec un moteur de recherche, indexer les fichiers à partir des données textuelles qu’ils contiennent afin de pouvoir les retrouver plus facilement dans le temps. C’est particulièrement utile dans les vidéos comportant beaucoup de textes, par exemple les comptes-rendus de conférences incluant des présentations de type PowerPoint.

Dans un billet, Adarsh Solanki, responsable programme d’Azure Media Services, donne l’exemple de la société d’ingénierie Oceaneering, qui évolue dans le secteur pétrolier où elle suit les opérations sous-marines. Cette entreprise produit d’importants volumes de vidéos sur lesquelles s'affichent, en surimpression, des coordonnées GPS, des repères de profondeurs et autres indications significatives qu'elle a pu extraire avec Azure Media OCR. Il s’agit toutefois d’une application de niche et l’utilisation la plus courante devrait être l’extraction de présentations faites lors de conférences.

Détection de mouvements et identification des émotions

Annoncés la semaine dernière en préversion, les services Azure Media Analytics s’appuient sur les composants de la plateforme Azure Media Services et peuvent donc être mis en œuvre à grande échelle dès leur mise en route, précise Microsoft dans un autre billet. Les utilisateurs accèdent ainsi à Media Indexer qui apporte des fonctions de reconnaissance vocale opérationnelles en huit langues (dont le français), ainsi qu'à des fonctions de détection de mouvements, d’identification des visages et des émotions exprimées, ce qui permet, par exemple, d’analyser les réactions de personnes assistant à un événement (surprise, tristesse, joie, inquiétude, colère, indifférence, dégoût ou mépris). Les services comprennent aussi Hyperlapse (disponible en préversion limitée), fruit de 20 ans de recherche sur la vision informatisée au sein de Microsoft Research. Ce service combine des techniques de stabilisation vidéo et d’accéléré (time-lapse) pour créer des vidéos courtes à partir de contenus longs. Azure Media Analytics peut aussi accéder à des outils de synthèse pour créer des sommaires récapitulatifs des vidéos. On y trouve par ailleurs un service de modération de contenus qui réduit les interventions manuelles nécessaires pour supprimer les passages inappropriés dans les vidéos et, en préversion privée donc, le service Video OCR.

Des applications dans la relation client ou la sécurité

Microsoft a expliqué avoir lancé ces services en réponse aux besoins exprimés par les clients dans différents secteurs d’activité : secteur public, mais aussi distribution, automobile, éducation, etc. Parmi les premiers utilisateurs figure une société comme Veritone qui a intégré Azure Media Indexer sur sa plateforme. Cette dernière utilise des outils cognitifs pour analyser les flux audio et vidéo dans un mode proche du temps réel afin d’en extraire des informations permettant de lancer des actions appropriées (par exemple, dans le secteur des médias, la diffusion de publicités natives).

Dans un billet, Microsoft évoque d’autres exemples d’applications des services Azure Media Analytics : dans les centres d’appels (extraction des textes des fichiers audios pour analyser les plaintes), dans l’éducation (récupération des PowerPoint pour retrouver plus facilement des cours), dans la sécurité (analyse des vidéos des caméras IP), ou encore, dans les lieux publics, modération des contenus générés par les utilisateurs sur des portails de diffusion d’informations. Une page de démonstration permet de mieux appréhender la façon dont ces services peuvent être utilisés.