Google a présenté Gemini 3.1 Flash TTS, son tout dernier modèle de synthèse vocale disponible en beta pour les développeurs (via Gemini API), les entreprises (dans Vertex AI) et pour les utilisateurs de Workspace (avec Vids). Le fournisseur annonce que la version de sa technologie de synthèse vocale temps réel (TTS) améliore la qualité globale de la synthèse vocale pour en faire son modèle « le plus naturel et le plus expressif à ce jour. » Pour étayer ses propos, Google met en avant les résultats obtenus par son modèle au classement Artificial Analysis TTS, basé sur les préférences de milliers de personnes en test à l'aveugle, dans lequel 3.1 Flash TTS a obtenu le deuxième score le plus haut (1211), juste derrière Inworld TTS 1.5 Max (1215), mais devant Eleven Labs v3 (1179) et Minmax Speech 2.8 HD (1169).

Ce modèle introduit également des contrôles audio pour gérer le style vocal, le rythme, l'intonation et la prononciation. « En intégrant des commandes en langage naturel directement dans le texte saisi, vous pouvez personnaliser la synthèse vocale générée par l'IA avec un niveau de précision accru », indique Google. Plus de 78 langues (arabe, anglais, allemand, chinois, espagnol, français, japonais, polonais, portugais, russe, ukrainien, suédois...) sont supportées sachant qu'un filigrane SynthID est appliqué sur tous les flux audio en sortie pour bien identifier qu'une IA est derrière et non un humain.

Le fournisseur américain est loin d'être le seul à proposer des modèles de synthèse vocale temps réel. Outre ElevenLabs, Inworld, et Minmax Speech, on trouve aussi Cartesia Sonic 3, Deepgram Aura-2, Hume AI, Kokoro 82M, OpenAITTS ou encore les français Kyutai TTS et Voxtral de Mistral.