Dans un article publié en début de semaine, une équipe d’ingénieurs de Microsoft travaillant sur la recherche en intelligence artificielle présente un système de reconnaissance vocale qui s’approche des capacités de compréhension d’un interlocuteur humain. Les chercheurs annoncent un taux d’erreur de 5,9% (contre 6,3% il y a encore un mois) ce qui correspond à ce qu’obtient une personne à qui l’on a demandé de transcrire la même conversation, indique Microsoft dans un billet. Il s’agit selon l’éditeur de la meilleure performance enregistrée jusque-là, la parité avec les capacités humaines ayant été atteintes, indique Xuedong Huang, responsable scientifique pour les technologies de reconnaissance vocale chez Microsoft. Il a fallu près de 20 années d’effort pour y parvenir, souligne l’un des chercheurs, Geoffrey Zweig.

L’équipe explique que la clé de la performance de son système est l’utilisation systématique des réseaux neuronaux convolutifs et récurrents LSTM (long short-term memory) combinée avec une méthode de lissage spatial et d’apprentissage de modèles acoustiques. Dans l’article « Achieving human parity in conversational speech recognition », téléchargeable sur le site arxiv.org de la Cornell University Library, l’équipe de Microsoft décrit notamment sa méthode de régularisation spatiale qui améliore nettement les performances de son modèle acoustique LSTM, l’utilisation de réseaux neuronaux LSTM plutôt que RNN-LM et de son toolkit cognitif CNTK (Computational Network Toolkit) ayant servi à bâtir ses modèles.

Apple, IBM et Google aussi dans la bataille de la reconnaissance vocale

Les chercheurs montrent également que les erreurs humaines comparées à celles faites par l’ordinateur font apparaître une équivalence substantielle, à l’exception des approbations de type « mmh mmh » ou hésitations « heu », couramment faites par un interlocuteur humain. « Il y a seulement cinq ans, je n’aurais pas pensé que nous aurions pu réaliser cela, ni que c’était possible », a confié Harry Shum, vice-président exécutif, responsable du groupe de recherche en intelligence artificielle de Microsoft.

Les grands acteurs du secteur informatique (IBM, Google, Apple, HPE...) redoublent d'efforts en ce moment pour doper leurs technologies dans le domaine de l'intelligence artificielle. Apple vient tout juste de recruter Ruslan Salakhutdinov, professeur à Carnegie Mellon, pour prendre la tête de son équipe de recherche dans ce domaine.