Enrichir les capacités des agents IA est devenu un leitmotiv pour les éditeurs. Le W3C soutenu par Google et Microsoft travaille sur l’API WebMCP pour donner la capacité aux développeurs d’exposer des outils JavaScript côté client aux agents IA. L’objectif est de faciliter les flux de travail collaboratifs entre les utilisateurs et les agents au sein d'une même interface Web. À l’aide de l'API, les agents devraient pouvoir interagir directement avec les pages Web et participer aux tâches collaboratives au sein de la même interface.
« WebMCP est disponible en avant-première chez Google », a indiqué Andre Cipriani Bandarra, ingénieur chargé des relations avec les développeurs pour Chrome et le Web chez Google, dans un blog. Il ajoute que l’API « fournit un moyen standard d'exposer des outils structurés et garantit la possibilité pour les agents IA d’effectuer des actions sur un site avec une vitesse, une fiabilité et une précision accrues ».
Un projet bien avancé
Le projet WebMCP a fait l’objet d’un rapport publié par le groupe Web ML du W3C. L’API est décrite comme « une interface JavaScript qui permet aux développeurs web d'exposer les fonctionnalités des applications web sous forme d'« outils », c'est-à-dire des fonctions JavaScript avec des descriptions en langage naturel et des schémas structurés qui peuvent être invoqués par des agents, des agents de navigateur et des technologies d'assistance ».Toujours selon le rapport, les pages web qui utilisent WebMCP peuvent être considérées comme des serveurs MCP (Model Context Protocol) qui implémentent des outils dans un script côté client plutôt que dans le back-end, permettant ainsi des flux de travail collaboratifs où les utilisateurs et les agents travaillent ensemble dans la même interface web. Les éditeurs du rapport sont Khusal Sagar et Dominic Farolino de Google et Brandon Walderman de Microsoft.
Comme cas d’usage, M. Bandarra cite le service client, le commerce électronique et le tourisme, dans lesquels des agents aident les utilisateurs à remplir des tickets d'assistance, à acheter des produits et à réserver des vols. À noter que deux API proposées dans le cadre du WebMCP permettent aux agents de navigateur d'agir au nom de l'utilisateur : une API déclarative qui effectue des actions standard pouvant être définies directement dans des formulaires HTML et une API impérative qui effectue des interactions complexes et plus dynamiques nécessitant l'exécution de JavaScript. « Ces API servent de pont, rendant le site web « prêt pour les agents » et les flux de travail plus fiables et plus performants par rapport à l'activation DOM brute », a souligné M. Bandarra.