Depuis le début de l’année, Anthropic a décidé d’actualiser Claude Opus, son modèle le plus performant avec une fréquence de 6 semaines. Rappelons que la famille Claude comprend trois modèles : Opus pour le raisonnement complexe, le codage avancé et les agents autonomes longue durée, Sonnet qui affiche des performances proches d'Opus mais à un coût inférieur et Haiku le plus rapide et moins cher pour les applications à fort volume. L'arrivée de la version 4.8 de Claude Opus intervient seulement 41 jours après la livraison de l'itération 4.7. Une rapidité que certains analystes expliquent par l’accueil mitigé réservé par les utilisateurs à ce dernier modèle. A noter que pendant cette période, OpenAI a publié GPT-5.5 et Google lors de sa conférence I/O a dévoilé Gemini Flash.
Pour répondre à la concurrence, Claude Opus 4.8 apporte des améliorations et des évolutions. Côté réponses, une attention particulière a été portée sur la gestion des résultats de mauvaise qualité. Dans le blog d’Anthropic , les premiers testeurs ont constaté que le modèle est « plus susceptible de signaler les incertitudes liées à son fonctionnement et moins susceptible de formuler des affirmations non étayées ». Les tests menés par la société montrent une amélioration sur l’intégrité des réponses du modèle. Sur le plan de la tarification, Claude Opus 4.8 garde les mêmes tarifs que son prédécesseur à savoir 5 $ HT par million de tokens d'entrée et 25 $ HT par million de tokens de sortie.
Des workflow dynamiques et un sélecteur de performance
Anthropic en profite pour annoncer des évolutions pour Claude Code et Cowork basé sur Claude Opus 4.8. Sur la partie développement, la fonction « workflow dynamique » pour gérer des tâches complexes de code de bout en bout. Disponible en preview, elle génère dynamiquement des scripts d'orchestration qui exécutent des dizaines, voire des centaines, de sous-agents en parallèle au sein d'une même session. La fonction adresse différents cas d’usage comme la recherche de bogues à l'échelle d'un service entier, une migration impliquant des centaines de fichiers, ou encore un projet à tester sous tous les angles avant de le valider. Les workflow dynamiques peuvent être testés dans Claude Code CLI, Desktop, l’extension VS Code pour les abonnés Max, Team et Enterprise ainsi que dans l'API Claude, sur Amazon Bedrock, Vertex AI et Microsoft Foundry. Anthropic alerte sur le fait que cette fonction « peut consommer beaucoup plus de tokens qu'une session Claude Code classique » et donc de commencer par une tâche limitée.
Sur l’optimisation du rapport peformance/token, la société a présenté un panneau de « contrôle d’effort » dans le sélecteur de modèle dans Claude Cowork et le site Claude.ai. Dans ce panneau, les utilisateurs pourront choisir le niveau de performance (selon la classe choisie Opus, Sonnet, Haiku) et les tokens associés à consacrer à une tâche données. Il existe 4 niveaux d’efforts normal, élevé (valeur par défaut d’Opus 4.8), extra, et max. Ce dernier consommera plus de tokens, mais les résultats seront meilleurs. Anthropic précise que ce panneau est accessible pour tous les abonnements.
Un modèle Mythos pour tous en vue
Dans un post de blog, Anthropic annonce aussi l'arrivée dans quelques semaines d'une nouvelle catégorie de modèles dotés d'un raisonnement supérieure à celle d'Opus. Il fait référence à Mythos qui fait partie du projet Glasswing. Une première déclinaison Mythos Preview a défrayé la chronique pour ses capacités dans le domaine de la cybersécurité pour découvrir des failles. Pour l'instant, ce modèle n'est pas accessible pour tous. Avant de lancer cette gamme de modèles, Anthropic veut s'assurer qu'ils ne seront pas utilisés à mauvais escient.

Commentaire