Avec DiffusionGemma, Google optimise l'inférence locale

Plutôt que de générer du texte mot à mot, le modèle ouvert expérimental de Google s'appuie sur la technique de diffusion servant pour la création d'image. Ce procédé augmente sensiblement les performances de l'inférence locale.

Les grands modèles de langage (LLM), extrêmement puissants, fonctionnent encore comme s'ils tapaient sur un clavier, traitant les charges de travail de manière simple et bidirectionnelle (propre aux transformers). Mais dans un usage local, ce traitement peut entraîner une sous-utilisation des GPU ou des TPU. Dans ce cadre, Google vient de présenter DiffusionGemma, un modèle ouvert expérimental de la famille Gemma 4. Il est capable de générer du contenu « exceptionnellement vite », en créant des blocs de texte entiers simultanément grâce à des techniques de diffusion plutôt qu'à un traitement token par token.

L'entreprise affirme que grâce à cette technique, l’inférence est quatre fois plus rapide par rapport aux autres modèles qui reposent sur un traitement séquentiel. Elle peut également se traduire par des économies pour les utilisateurs. Selon l'analyste technologique Carmi Levy, les modèles de monétisation existants basés sur le paiement par jeton « pénalisent l'utilisation de solutions IA dont l'efficacité n'est pas optimale ». Mais DiffusionGemma « pourrait annoncer une prochaine génération de solutions efficaces et définies par tâche, capables d'offrir une capacité de calcul étendue sans grever le budget opérationnel », a-t-il déclaré.

Un contraste avec le traitement bidirectionnel

S'appuyant sur la famille Gemma 4 de Google et ses travaux de recherche sur Gemini Diffusion, le modèle DiffusionGemma utilise l’approche dite « Mixture-of-Experts » (MoE) de 26 milliards de paramètres, conçue pour optimiser la génération de texte. L’approche MoE change fondamentalement la manière dont les modèles utilisent le matériel, en confiant aux processeurs une plus grande charge de travail à chaque cycle et pouvoir rédiger des paragraphes complets de 256 tokens à la suite. Selon Google, le modèle peut générer du contenu jusqu’à quatre fois plus rapidement sur les GPU puisqu’il n’active que 3,8 milliards de paramètres pendant l’inférence et, une fois quantifié, peut tenir dans 18 Go de VRAM sur des GPU haut de gamme comme la Nvidia RTX 5090. « Avec le Mixture of Experts, on passe du traitement séquentiel d’une simple machine à écrire au traitement par une immense presse qui imprime l’ensemble du bloc de texte simultanément », ont écrit Brendan O’Donoghue et Sebastian Flennerhag, chercheurs chez Google, dans un article de blog.

Les générateurs d’images par IA partent d’un « bruit visuel » pur et aléatoire qu’ils affinent de manière itérative pour aboutir à une image finale (ce que l’on appelle la « diffusion »). DiffusionGemma applique ce même processus au texte. Il ne génère pas les tokens dans l’ordre, mais commence par une « toile de tokens de remplacement aléatoires » qu’il traite en plusieurs passes, identifiant les tokens contextuels qu’il juge les plus pertinents et les utilisant pour affiner le reste. Le modèle est capable de s’autocorriger, en utilisant un score de confiance pour réévaluer les jetons lors de la passe suivante. « Le modèle affine de manière itérative sa propre sortie, si bien qu’il peut évaluer l’ensemble du bloc de texte en une seule fois pour corriger les erreurs en temps réel », ont expliqué Brendan O’Donoghue et Sebastian Flennerhag. « DiffusionGemma dispose également d'un mécanisme d'attention bidirectionnel », ont-ils indiqué. « La génération de 256 tokens en parallèle à chaque passage en avant permet à chaque jeton de prendre en compte tous les autres, ce qui peut s'avérer particulièrement utile dans des domaines de nature non linéaire, comme les graphes mathématiques, le remplissage de code et l'édition en ligne », ont-ils précisé.

DiffusionGemma est optimisé pour l'ensemble de la pile matérielle de Nvidia, ce qui le rend compatible aussi bien avec les configurations grand public qu'avec les systèmes d'entreprise haute performance tels que Hopper et Blackwell. Comme il est publié sous licence Apache 2.0, les développeurs peuvent librement utiliser, modifier, distribuer et commercialiser le logiciel à l’aide de leurs outils préférés. Il peut être exécuté sur des GPU ou dans le cloud via Google Cloud Model Garden ou Nvidia NIM, et il est disponible sur Hugging Face, GitHub et vLLM, avec une prise en charge de la bibliothèque open source llama.cpp prévue prochainement.

Des cas d’usage clés

Le modèle est particulièrement utile dans les flux de travail locaux où la vitesse est cruciale, notamment la génération de structures textuelles non linéaires, et ouvre la voie à ce que Google appelle de « prochains modèles de comportement », comme la compréhension multimodale ainsi que la génération et le rendu de code en temps quasi réel. « DiffusionGemma est particulièrement bien adapté au codage et à l'édition interactifs, où son efficacité assure un traitement et des itérations rapides », a expliqué Carmi Levy, soulignant que sa capacité à tenir dans 18 Go de mémoire vidéo (VRAM) et sa possibilité de déploiement sur des GPU locaux courants peuvent potentiellement profiter aux charges de travail liées au service client qui reposent fortement sur l'interaction en temps réel et le traitement local.

« DiffusionGemma intègre également un mode de réflexion particulièrement doué pour la résolution de problèmes », a-t-il ajouté. « Par exemple, le modèle a été affiné pour jouer au Sudoku, une tâche généralement difficile pour les modèles autorégressifs car chaque token dépend des tokens futurs, illustrant assez bien la capacité du modèle à résoudre des problèmes plus complexes », a fait remarquer l’analyste.

Limites

Google admet ouvertement que DiffusionGemma est conçu pour des flux de travail spécifiques et qu’il existe des « compromis majeurs ». Le modèle est adapté à l’inférence sur de petits lots et à la génération à faible latence et haute vitesse de lots de taille faible à moyenne sur un « seul accélérateur performant ». Dans les environnements de service cloud à haut débit (où l’infrastructure est conçue pour traiter des dizaines ou des centaines de milliers de requêtes par seconde avec une latence ultra-faible), le codage parallèle de DiffusionGemma « offre des rendements décroissants » et peut même entraîner des coûts de service plus élevés, a reconnu Google. De plus, la qualité globale de ses résultats est inférieure à celle du modèle Gemma 4 standard, conçu pour les applications exigeant une qualité maximale.

M. Levy fait cependant remarquer que, même si le LLM « peut s’avérer moins précis que d’autres modèles dans certaines charges de travail », des cycles d’affinement ultérieurs pourraient permettre de surmonter cette limite. « Même si Google ne communique pas sur les coûts d’exécution, il est clair que le fournisseur fait un pari sur l’efficacité », a-t-il ajouté. « Lorsqu’il est déployé sur les charges de travail qui tireraient le meilleur parti de son architecture, DiffusionGemma semble avoir le potentiel de réduire la charge de traitement et les coûts associés », a avancé l’analyste