La guerre sur le front des LLM ne faiblit pas. Anthropic a annoncé la disponibilité d’Opus 4.5, son dernier modèle de langage améliorant les performances et la sécurité après les lancements récents de Gemini 3 de Google et GPT-5.1. Il arrive quelques semaines après Sonnet 4.5 (milieu de gamme) et Haiku 4.5 (entrée de gamme) et 6 mois après son prédécesseur Opus 4.0 (haut de gamme). Selon le fournisseur, il s’avère - est-ce vraiment surprenant - supérieur en termes de performances mais aussi de sécurité.

Cette mouture dispose de capacités avancées pour répondre aux besoins de codage et des agents IA et affiche de bonnes capacités pour des tâches de recherche et de bureautique (présentations et feuilles de calcul). Il dispose également de meilleures capacités visuelles, de raisonnement et mathématiques que ses prédécesseurs. Par ailleurs, il est compétent pour la réécriture d'applications, un processus qui peut prendre beaucoup de temps. Il gère également l'ambiguïté : un développeur peut, par exemple, lui demander de résoudre un bug sans préciser que sa correction nécessite que le modèle examine plusieurs systèmes. Ce LLM raisonne aussi sur les compromis de façon autonome. Son éditeur affirme que son dernier modèle atteint son pic de performance après quatre itérations, contre dix pour la concurrence selon lui.

Des performances qui se payent

Parmi les principaux résultats des comparatifs mis en avant par Anthropic : Opus 4.5 se classe en tête dans l’écriture de code dans 7 langages de programmation sur 8 sur SWE-bench Multilingual. Il peut résoudre facilement des problèmes de codage complexes, en progression de 10,6 points par rapport à Sonnet 4.5 sur le benchmark Aider Polyglot. Ce modèle améliore aussi la recherche agentique sur BrowseComp-Plus (72,9 % contre 67,2 % pour Sonnet 4.5). Sur Vending-Bench (cohérence à long terme des agents autonomes), le gain atteint 29 % par rapport à Sonnet 4.5. S'agissant de la sécurité, Anthropic indique que son dernier modèle est moins susceptible que d'autres d'être vulnérable à des attaques par injection de prompt et détaille ses caractéristiques sur ce point dans un document.

Côté tarif, ce modèle est accessible pour les développeurs via l’API claude-opus-4-5-20251101 pour un tarif de 5$ HT par million de tokens en entrée et de 25$ HT en sortie, soit bien plus cher qu’un GPT-5 d’OpenAI (1,25$/10$), mais moins qu’un Gemini Pro 3 de Google aussi bien en entrée (10$) qu’en sortie (20$).