Connue jusqu’ici pour ses outils de traduction textuelle, Deepl passe à la vitesse supérieure en s’attaquant à la traduction vocale en temps réel en annonçant Voice to voice. « Après de nombreuses années consacrées à la traduction de texte, la voix était une étape naturelle pour nous », a expliqué Jarek Kutylowski, CEO de Deepl, à Techcrunch. Une évolution qui s’inscrit dans la continuité logique de son cœur de métier, le fournisseur estimant avoir une carte à jouer sur ce marché notamment en termes d’expérience utilisateur. Cette technologie de traduction temps réel de discussions orales du fournisseur va être intégrée à des produits mais aussi être disponible sous la forme d'une API.
On retrouve donc Voice to voice notamment dans Voice for conversations qui propose une expérience multi-plateformes web et mobile (iOS et Android). « Elle permet de mener des conversations en face à face dans plusieurs langues. Chaque participant s'exprime à voix haute dans la langue de son choix, tandis que la traduction s'affiche à l'écran ou est diffusée sous forme audio. Le mode face à face divise l'écran afin que chacun puisse lire confortablement les traductions sans avoir à se passer le téléphone », explique le fournisseur. Group conversations (beta privée, GA à partir du 30 avril) donne de son côté la possibilité à un participant de rejoindre instantanément une conversation via un QR code. « Grâce à l'accès multi-appareils, les participants peuvent bénéficier d'une traduction vocale simultanée en temps réel », précise Deepl. La technologie de traduction temps réel des conversations orales est aussi disponible, pour l'instant en beta privée sur inscription, dans Voice for meetings pour Microsoft Teams et Zoom avec plus de 100 langues supportées dont l'anglais, le français, l'allemand, l'espagnol, le japonais et le chinois.
Des glossaires métiers aussi intégrés
L'API Voice to voice est annoncée en beta privée sur inscription pour que les entreprises intègrent directement la traduction vocale temps réel de Deepl dans leurs propres applications internes, y compris des centres de relation client. L'éditeur annonce par ailleurs que Voice to voice dispose aussi de glossaires (GA à partir du 7 mai) afin de mieux capter, transcrire et traduire en temps réel une terminologie spécifique relative aussi bien à des secteurs, métiers, noms de produits, entreprises ou noms propres. Et ce quel que soit le débit ou le niveau de technicité du discours.
Au coeur de la solution Voice to voice de Deepl, on trouve un modèle de synthèse vocale temps réel (TTS) aux résultats présentés comme prometteurs, même si l'éditeur précise qu'il ne fait pas tout. « Un bon modèle de synthèse vocale ne constitue que la base d'une expérience vocale de qualité. La conception d'un produit fonctionnant en temps réel exige bien plus : une stratégie d'inférence par blocs, un enchaînement fluide des segments audio générés et un contrôle de la vitesse de sortie afin d'obtenir une latence minimale », assure le fournisseur. La concurrence sur le marché des TTS est déjà bien aiguisée : outre Google qui vient de lancer son dernier Gemini 3.1 Flash TTS, on trouve aussi des sociétés comme ElevenLabs, Inworld, et Minmax Speech ou encore les français Kyutai TTS et Voxtral de Mistral.