A l'aide de Gemma 4 12B, un modèle de 12 milliards de paramètres développé par DeepMind, Google a lancé des outils permettant aux développeurs d'exécuter localement des flux de travail d'IA agentique avec Google AI Edge, des outils open source comme Ollama ou AnythingLLM. La plateforme propriétaire HP IQ propose déjà de l'IA en local sur les postes de travail de la marque. Dans un article de blog, l'entreprise a déclaré que ce modèle, associé à la pile AI Edge, peut être utilisé pour créer et tester des applications sur des machines courantes. La combinaison modèle-runtime prend en charge des fonctionnalités telles que le traitement autonome des données, la génération d'informations visuelles, la création de pages web et l'utilisation d'outils. Cette version inclut AI Edge Gallery pour MacOS, où les développeurs peuvent utiliser Gemma 4 12B pour générer et exécuter des scripts destinés à des tâches telles que l'analyse de données. Google a également indiqué que son application de dictée et d'édition vocale Eloquent fonctionne désormais entièrement sur un Mac, avec prise en charge de la transcription locale et de l'édition de texte à commande vocale.
Google a également étendu LiteRT-LM, son outil en ligne de commande léger pour exécuter des modèles linguistiques localement, avec une nouvelle commande « serve ». La société a déclaré que l'interface de ligne de commande (CLI) fait office de serveur LLM local et donne la possibilité aux développeurs de connecter Gemma 4 12B à des outils standard, des SDK et des frameworks via un point de terminaison local. « Vos données restent sur votre appareil tout en conservant une réactivité, une utilité et une rentabilité fiables », a déclaré la société dans son article de blog. Cette annonce intervient alors que les entreprises cherchent à aller au-delà des grands modèles polyvalents pour certaines charges de travail IA. Gartner prévoit que d’ici 2027, les entreprises utiliseront au moins trois fois plus de petits modèles IA spécifiques à une tâche que de grands modèles linguistiques polyvalents, invoquant la demande pour des systèmes IA plus contextualisés et plus rentables.
Des défis à relever
Mais l’exécution d’agents sur les postes de travail des employés pose un certain nombre de problèmes. Les entreprises doivent composer avec les limites du matériel des terminaux (CPU, GPU et la mémoire associée principalement), ce qui peut restreindre la taille des modèles pouvant fonctionner efficacement et le nombre d’instances de modèles pouvant être exécutées simultanément. « Alors que l'IA peut désormais tenir sur un ordinateur portable, l'infrastructure informatique d'entreprise est largement mal préparée pour la gérer », a déclaré Rishi Padhi, analyste principal chez Gartner. « Même des modèles hautement optimisés comme le Gemma 4 12B nécessitent environ 16 Go de mémoire unifiée ou de VRAM pour fonctionner parallèlement à des applications standard. De nombreux ordinateurs portables d'entreprise standard ne disposent pas de la bande passante mémoire et des NPU/GPU nécessaires à une exécution fluide et multi-tours des agents. »
Anand Joshi, analyste IA chez TechInsights, a déclaré que le déploiement local modifie également la nature des charges de travail. Sur un PC, la recherche peut signifier trouver des informations dans des dossiers et fichiers internes. Dans un datacenter, la même fonction pourrait impliquer une recherche sur Internet ou l’interrogation d’une grande base de données telle que SQL. « Le cadre du déploiement local de l’IA agentique est différent de celui d’un centre de données », a déclaré M. Joshi. « Les modèles sont plus petits ; vous ne pouvez exécuter qu’une seule instance d’un grand modèle à la fois. Vous êtes limité par la mémoire, le processeur, etc. »
La sécurité et la gouvernance sont également susceptibles de devenir des préoccupations majeures à mesure que les agents IA se rapprochent des terminaux d’entreprise. L’IA agentique est conçue pour prendre des mesures, ce qui crée de nouveaux risques de sécurité lorsque des modèles locaux ont accès aux fichiers des employés ou sont autorisés à interagir directement avec des applications et des scripts. « Mettre ces agents en bac à sable sans nuire à leur utilité reste un défi opérationnel majeur », a ajouté M. Padhi. « Et tout cela alors que les entreprises doivent auditer l’utilisation de l’IA pour des raisons de conformité et de sécurité. Lorsque l’inférence se fait entièrement hors ligne, il devient extrêmement difficile de capturer les journaux, de suivre la dérive des modèles et de s’assurer que les employés utilisent les méthodes approuvées et conformes pour un modèle. »
Le compromis en termes de coûts
L'exécution d'agents IA en local pourrait réduire certains coûts d'inférence dans le cloud, mais ces économies pourraient être contrebalancées à court terme par des dépenses plus élevées en matériel et en gestion des postes de travail. « Avant tout, il s'agit d'un transfert des dépenses d'exploitation (Opex) vers les dépenses d'investissement (Capex), car cela déplace la charge financière en imposant des cycles de renouvellement accélérés du matériel pour les PC haut de gamme ou les appareils en périphérie », a déclaré M. Padhi. « Cela nécessiterait l’achat d’ordinateurs portables coûteux et dotés d’une grande mémoire pour les employés, à un moment où la « memflation » dans le secteur du matériel informatique fait déjà grimper les prix de vente moyens des ordinateurs portables pour les utilisateurs finaux. »
De nombreuses entreprises ont renouvelé leurs PC en 2025 pour prendre en charge Windows 11, mais à ce moment-là, la plupart des inférences IA s’exécutaient encore dans le cloud, et l’intérêt de l’IA sur un terminal local restait flou, a déclaré M. Padhi. Les entreprises pourraient donc agir avec prudence, n’achetant des PC compatibles avec l’IA que lorsque l’inférence locale présente un intérêt commercial évident. À terme, cependant, l’IA en local pourrait rendre les dépenses des entreprises en matière d’IA plus prévisibles en réduisant l’exposition aux factures variables liées à l’inférence dans le cloud. En contrepartie, les entreprises pourraient devoir faire face à un coût de base plus élevé pour l’équipement et la gestion des appareils de leurs employés.
En complément de l’IA dans le cloud
Pour les entreprises, l’IA locale a peu de chances de remplacer purement et simplement l’IA basée sur le cloud. Selon les analystes, l’IA locale sera plus probablement utilisée pour des charges de travail qui tirent parti du traitement en périphérie, en particulier lorsque les applications doivent fonctionner hors ligne ou lorsque la confidentialité et les temps de réponse sont critiques. « Pour que l’IA agentique locale se généralise, les cas d’utilisation en périphérie devront compléter ceux des centres de données et du cloud », a déclaré M. Joshi. « Je ne m’attends pas à ce que l’IA agentique locale remplace l’IA dans le cloud, mais elle a le potentiel de prendre une part du marché du cloud, et des modèles comme Gemma constituent des étapes importantes pour y parvenir. »
Le marché, a ajouté M. Joshi, est encore en train de déterminer où l’IA locale s’intègre le mieux. « J’estime que les cas d’utilisation qui exigent la confidentialité ou ont des besoins stricts en matière de latence passeront d’abord aux nœuds locaux, les autres suivant dans les 2 à 3 prochaines années », a-t-il déclaré. M. Padhi a déclaré que le placement des modèles dépendra des exigences de confidentialité d’une charge de travail, de la puissance de calcul dont elle a besoin et de l’emplacement des données concernées. Des tâches telles que la génération de code ou l’analyse de fichiers locaux pourraient de plus en plus s’exécuter sur les appareils des employés, tandis que les systèmes RAG à l’échelle de l’entreprise et les workflows d’IA plus complexes resteront probablement basés sur le cloud.

Commentaire