DeepLab est une technologie de segmentation sémantique d’images qui permet d’assigner à chaque pixel des étiquettes d’identification (ciel, personne, chien, route…). C’est cette technologie qui est par exemple utilisée sur les smartphones Pixel 2 et 2 XL pour obtenir de très beaux portraits en floutant l’arrière-plan derrière la personne photographiée. Elle est également mise à profit dans la segmentation des vidéos mobiles temps réel.

Sur les Pixel 2 et 2 XL, DeepLab est à l'oeuvre pour magnifier les portraits. (Crédit : Google)

« Cet étiquetage sémantique nécessite d’identifier le contour des objets », explique Google dans un billet. Cela impose par conséquent une précision de localisation beaucoup plus stricte que les autres tâches de reconnaissance visuelle portant sur la classification d’images, par exemple.

Google vient de mettre cette technologie en open source en l’ajoutant à son framework de développement TensorFlow, utilisé dans la plupart des applications d'apprentissage machine. Les développeurs vont à leur tour pouvoir tirer parti de ces fonctionnalités de segmentation d'images. La DeepLab-v3+ inclut des modèles construits sur une architecture de réseau neuronal convolutif pour fournir les résultats les plus précis sur les déploiements du côté serveur.