Nvidia lance son modèle multimodal Nemotron 3 Nano Omni

Après avoir annoncé sa famille de modèles Nemotron 3 en décembre dernier, Nvidia pousse une déclinaison multimodale Nano Omni capable de traiter du texte, de la vidéo et de l'audio.

Nvidia travaille activement pour développer sa gamme de modèles ouverts Nemotron 3. Disponibles en trois taille (nano, Super et Ultra) depuis décembre dernier, ces modèles orientés analyse de texte et raisonnement sont désormais complétés par une déclinaison multimodale, Nano Omni. Dans un communiqué, le fournisseur indique que ce dernier donne la capacité à des agents de fournir des réponses plus rapides et plus intelligentes grâce à un raisonnement avancé couvrant la vidéo, l'audio, l'image et le texte. « Ce modèle de pointe apporte aux entreprises et aux développeurs une voie de mise en production pour des agents IA multimodaux plus efficaces et plus précis, avec une flexibilité et un contrôle total en matière de déploiement », assure Nvidia. Des premiers utilisateurs ont déjà pris en main ce LLM comme Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir et Pyler, tandis que Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle et Zefr sont en cours d'évaluation.

Nemotron 3 Nano Omni prend en charge les workflows de questions-réponses, de synthèse, de transcription et d'analyse documentaire, intégrant des fonctions de compréhension vidéo et vocale, une interface utilisateur graphique, la reconnaissance optique de caractères, et la transcription vocale. Avec l'objectif selon Nvidia de proposer un traitement de bout en bout de contenus d'entreprise riches tels que les enregistrements de réunions, les ressources de suivi et d'évaluation, les vidéos de formation et les documents commerciaux complexes. Ce modèle, disponible notamment sur Hugging Face, (mais aussi OpenRouter et Nvidia Build) a été amélioré à l'aide des modèles Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen3.5-397B-A17B, Qwen2.5-VL-72B-Instruct et gpt-oss-120b. Son architecture est hybride et repose sur un transformer (Mamba2) et du mélange d'experts (MoE), avec une fenêtre de contexte de 256 000 tokens pour un total de 30 milliards de paramètres.

Un usage pertinent pour H Company

Citant le retour d'expérience de H Company (une start-up française spécialisée dans le développement de modèles et d'agents pour automatiser les recherches), Nvidia a expliqué que son dernier agent de computer use optimisé par Nemotron 3 Nano Omni utilise une résolution d'entrée native de 1920 × 1080 pixels pour obtenir un haut niveau de raisonnement visuel. « Lors d'évaluations préliminaires sur le benchmark OSWorld, cette intégration a permis de réaliser des progrès significatifs dans la navigation au sein d'interfaces graphiques complexes et a tiré parti de la capacité de Nemotron 3 Nano Omni pour traiter des images en très haute résolution », explique Nvidia.