Google a publié une API expérimentale pour les LLM capable de fonctionner entièrement sur un terminal aussi bien sur des environnements Android, iOS que web. Présentée le 7 mars, l'API MediaPipe LLM Inference prend en charge initialement quatre modèles : Gemma, Phi 2, Falcon et Stable LM. Le fournisseur précise que cette interface de programmation est expérimentale et toujours en cours de développement, mais qu'elle donne aux chercheurs et aux développeurs la possibilité de créer des prototypes et de tester des modèles librement accessibles sur n'importe quel terminal Android, iOS ou web.

Pour Android, la firme a indiqué que les applications de production avec LLM sont en mesure de recourir à l'API Gemini ou Gemini Nano via Android AICore. Cette capacité au niveau du système introduite dans Android 14 fournit des solutions alimentées par Gemini pour les terminaux haut de gamme, y compris des intégrations avec des accélérateurs, des filtres de sécurité et des adaptateurs LoRA. Les développeurs peuvent essayer l'API d'inférence LLM de MediaPipe via une démo web ou en construisant des applications de démonstration.

Un exemple officiel est disponible sur GitHub. L'API donne la possibilité aux développeurs d'intégrer les LLM sur un appareil en quelques étapes en utilisant des SDK spécifiques à la plateforme. Grâce à des optimisations significatives, l'API peut offrir une latence de pointe sur le terminal, en se concentrant sur le CPU et le GPU pour prendre en charge plusieurs plateformes a expliqué Google. Ce dernier prévoit d'étendre l'API à d'autres plateformes et modèles en cours d'année.