La semaine dernière, AWS a ajouté un outil d'optimisation des prompts à Bedrock, son service entièrement managé pour créer, déployer et faire évoluer des applications d'IA générative. Cet outil, baptisé Advanced Prompt Optimization, est accessible via la console de ce service cloud et est conçu pour affiner automatiquement les prompts. Le but ? Améliorer la précision, la cohérence et l’efficacité sur plusieurs grands modèles de langage, a indiqué l’hyper-scaleur dans un billet de blog. L'outil fonctionne en évaluant d'abord les prompts par rapport à des ensembles de données et des métriques définis par l'utilisateur, puis en les réécrivant pour les optimiser pour jusqu'à cinq modèles d'inférence. Il compare ensuite les versions optimisées aux originaux sur l'ensemble des modèles afin d'aider les développeurs à identifier les configurations les plus performantes pour des charges de travail spécifiques, a déclaré AWS.
Actuellement, l'outil est disponible dans plusieurs régions du fournisseur, notamment US East, US West, Mumbai, Séoul, Singapour, Sydney, Tokyo, Canada (Central), Francfort, Irlande, Londres, Zurich et São Paulo. La société a indiqué que les clients professionnels seront facturés pour son utilisation en fonction des jetons d’inférence du modèle Bedrock consommés pendant le processus d’optimisation, en utilisant les mêmes tarifs par token que ceux appliqués aux charges de travail d’inférence Bedrock standard.
Rentabiliser la mise à l'échelle de l'IA en production
Selon les analystes, l'accent mis par l'outil sur l'affinement automatisé des prompts aidera les entreprises à relever les défis opérationnels, en particulier les aspects économiques liés à la mise à l'échelle des charges de travail d'IA générative en production. « La demande des entreprises pour de tels outils est motivée par une convergence entre la pression sur les coûts [et] la complexité opérationnelle liée à la mise à l'échelle de l'IA, plutôt que par un facteur unique », a déclaré Gaurav Dewan, directeur de recherche chez Avasant. « Les dépenses liées à l’inférence deviennent rapidement une préoccupation au niveau du conseil d’administration à mesure que les entreprises font passer les charges de travail d’IA générative de la phase d’expérimentation à la production », a-t-il ajouté, précisant que même des améliorations modestes de l’efficacité des invites peuvent avoir un impact mesurable sur les coûts d’exploitation lorsque les applications fonctionnent à grande échelle. L'analyste a également noté que la latence apparaît comme un indicateur critique, en particulier pour les services d'IA destinés aux clients, où des temps de réponse plus lents peuvent directement affecter l'adoption par les utilisateurs ; l'optimisation des prompts pourrait aider dans ce domaine en permettant une optimisation plus systématique de la qualité, de la latence et des coûts, plutôt que de s'appuyer sur des essais et des erreurs.
De plus, a déclaré Sanchit Vir Gogia, analyste en chef chez Greyhound Research, l’adoption croissante de stratégies d’IA multimodèles par les entreprises renforce également le besoin d’outils d’optimisation automatisée des prompts. L’adoption des LLM multimodaux s’accélère, les entreprises recherchant la flexibilité nécessaire pour déplacer les charges de travail d’un modèle à l’autre en fonction des exigences de coût, de performance et de gouvernance, a-t-il déclaré. Et d'ajouter que l’optimisation des prompts devient de plus en plus cruciale pour garantir que les applications et les flux de travail puissent passer d’un modèle à l’autre sans introduire d’incohérences comportementales ni de dégradation des performances.
Une concurrence accrue entre hyperscalers
En réalité, AWS n’est pas la seule à cibler l’optimisation des invites alors que les entreprises opérationalisent leurs déploiements GenAI. Google Cloud propose déjà un outil d’optimisation des prompts similaire dans sa Gemini Enterprise Agent Platform, qui peut automatiquement les affiner et les comparer entre à l’aide de jeux de données d’évaluation et de métriques. De son côté Microsoft, avec Azure AI Foundry, offre des capacités similaires axées sur l’orchestration des prompts, les pipelines d’évaluation, les tests de variantes et l’analyse comparative des workloadsl pour les applications IA d’entreprise. Selon M. Gogia, cette concurrence accrue entre les hyperscalers reflète une bataille plus large pour le contrôle de la couche opérationnelle de l'IA d'entreprise, chargée de déterminer comment les systèmes IA sont évalués, surveillés, gouvernés, optimisés, migrés, sécurisés et gérés à grande échelle. Selon lui, AWS positionne Bedrock comme cette couche opérationnelle en combinant l'accès multi-modèles avec l'optimisation des prompts, l'évaluation, la prise en charge de la migration et des capacités de gouvernance.
Parallèlement, Gemini Enterprise Agent Platform de Google (anciennement Vertex AI) tire parti de son écosystème IA et analytique, Microsoft Azure AI intègre la gouvernance de l'IA dans les workloads des logiciels d'entreprise, et de leur côté OpenAI et Anthropic renforcent les outils d'évaluation et de gestion des prompts centrés sur les développeurs, étroitement liés à leurs propres écosystèmes de modèles, selon M. Gogia. Parallèlement, a-t-il ajouté, des plateformes telles que Databricks et Snowflake intègrent l'observabilité et la gouvernance de l'IA au plus près des environnements de données d'entreprise, tandis que des frameworks comme LangSmith et des outils open source tels que Promptfoo séduisent les entreprises en quête d'une plus grande portabilité et d'une neutralité des modèles.