AWS analyse les images et fait parler les applications

Cap sur l'IA pour Amazon Web Services. Sur sa conférence re:Invent 2016, qui se tient en ce moment à Las Vegas (28 novembre-2 décembre), le fournisseur vient d'annoncer trois services basées sur le deep learning : Rekognition, Polly et Lex. Les deux premiers proposent l'analyse avancée d'images et une synthèse vocale proche de la voix humaine. Le troisième, encore en préversion, permet de développer des chatbots.

Placé en 1ère position sur le marché du cloud public et de loin, Amazon Web Services entend bien maintenir son avance en continuant à développer ses services, notamment dans l’intelligence artificielle. Selon Gartner, il pèse à lui tout seul bien plus lourd que la somme des 14 fournisseurs de clouds concurrents qui le suivent. Après les baisses de prix intervenues la semaine dernière (sur ses instances EC2 et son stockage S3) et l’arrivée régulière d’éditeurs sur sa plateforme (Tableau et Dynatrace parmi les plus récents), le fournisseur multiplie donc les annonces à l’occasion de sa conférence Re:invent 2016 qui se tient cette semaine à Las Vegas. Dans le domaine de l’IA, plus précisément du deep learning, le CEO d’AWS Andy Jassy est lui-même intervenu pour présenter trois services : Rekognition, Polly et Lex. Les deux premiers sont déjà disponibles, le troisième porte sur les robots conversationnels et il n’est encore qu’en préversion. D’autres services d’IA arriveront encore en 2017.

Rekognition permet aux entreprises d’ajouter de l’analyse d’images à leurs applications pour détecter des visages dans une photo et les comparer à d’autres, de reconnaître des objets et des scènes et de classer les images. Dans sa présentation du service, AWS explique qu’il s’appuie sur la technologie de deep learning développés par ses équipes spécialisées dans le traitement avancé de l’image (computer vision) pour analyser les milliards d’images quotidiennes de son service de stockage Prime Photos. Celle-ci utilise des modèles basés sur des réseaux neuronaux pour identifier des milliers d’éléments dans les images et des fonctionnalités complémentaires lui sont régulièrement ajoutées. On se souvient qu’il y a quelques mois, AWS avait discrètement racheté la start-up Orbeus sur ce terrain.

Rekognition localise les visages dans les images et en reconnaît les attributs (sourire, yeux ouverts...) pour en déduire un sentiment. Il peut aussi comparer deux visages pour reconnaître qu'il s'agit de la même personne.

47 types de voix dans 24 langues pour faire parler ses applications

Autre service s’appuyant sur du deep learning, Amazon Polly permet de proposer une synthèse vocale qui s’approche de la voix humaine pour faire parler les applications. Il propose un choix de 47 types de voix sur 24 langues et, selon AWS, sa rapidité d’exécution permet de supporter un dialogue interactif en temps réel. Pour utiliser le service, facturé au nombre de caractères convertis en paroles, l’application envoie le texte à synthétiser à l’API Polly qui lui retourne le flux audio. Celui-ci peut être joué immédiatement ou stocké dans un format audio tel que MP3.

Dans le domaine de l'IoT, Polly pourrait par exemple être utilisé pour notifier vocalement des changements de température. (agrandir l'image)

Lex, enfin, est destiné à bâtir des interfaces de conversation utilisant texte et voix, à intégrer aux applications. AWS propose à ses utilisateurs de rejoindre son programme de préversion pour le tester. Lex apporte des fonctionnalités de reconnaissance automatique de la parole (ASR) pour les convertir en texte et de compréhension du langage naturel (NLU). Celles-ci sont utilisées pour reconnaître l’intention d’un discours avec l’objectif d’améliorer l’engagement des utilisateurs. En fait, Lex utilise les mêmes technologies de deep learning que l’assistant vocal Alexa, boîtier cynlidrique qu’Amazon commercialise depuis plus d’un an sur le marché grand public aux Etats-Unis et qui joue un rôle de majordome virtuel dans la maison. Il se contrôle à la voix pour diffuser de la musique ou débiter des nouvelles, les résultats sportifs ou la météo. Avec Lex, AWS s’attend à ce que les développeurs élaborent de nouvelles catégories de produits utilisant une interface vocale. Il s’agira là aussi d’un service facturé à la consommation.

Parmi les applications possibles de Lex, AWS décrit un robot qui permettrait de développer un système de réservation de rendez-vous médicaux en combinant différents services de son cloud. (agrandir l'image).

Sur le même thème

Partenaires

AWS analyse les images et fait parler les applications

47 types de voix dans 24 langues pour faire parler ses applications

Commentaire

Suivre toute l'actualité

Newsletter

47 types de voix dans 24 langues pour faire parler ses applications

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter