Un peu plus d’un mois après le lancement de GPT-5, OpenAI vient de lancer une version optimisée du LLM pour son agent de codage, Codex. Baptisé GPT-5 Codex, il ajuste le temps de raisonnement en fonction de la complexité de la tâche. Ainsi, l’agent peut consacrer de quelques secondes à plusieurs heures pour une tâche de programmation, selon l’éditeur. En conséquence, il affiche de bons résultats dans les tests de codage avec l’IA.
La société affirme que GPT-5-Codex surpasse GPT-5 sur SWE-bench Verified, un comparatif mesurant les capacités de codage avec des agents, ainsi qu'un banc de tests mesurant les performances des tâches de refactorisation de code issues de grands référentiels établis. GPT-5 Codex est déployé dans l’agent de codage accessible via un terminal CLI, un IDE, GitHub ou ChatGPT. Il est disponible pour tous les utilisateurs de ChatGPT Plus, Pro, Business, Education et Enterprise. OpenAI prévoit de rendre le LLM disponible ultérieurement pour les clients API.
Un LLM au raisonnement dynamique
L’entreprise précise que le modèle a été entraîné sur des travaux d’ingénierie concrets, du débogage et de l'ajout de tests à la création de projets à partir de zéro et à l'exécution de refactorisations à grande échelle. De même, il a été spécifiquement formé à la conduite de la revue de code, où il peut naviguer dans les bases de code, raisonner sur les dépendances et exécuter des tests pour valider l'exactitude. A noter également qu’à la différence de GPT-5 standard, la version pour Codex n’intègre pas de routeur pour basculer sur des sous-modèles en fonction des tâches. Au lieu de cela, le modèle lui-même décide dynamiquement du temps de « réflexion » à consacrer à l'entraînement. Les développeurs peuvent ainsi effectuer des ajustements en cours de tâche si nécessaire.
Avec ce lancement, OpenAI espère séduire les développeurs et les entreprises qui voient dans les agents IA de codage une opportunité d’améliorer la productivité et d’accélérer la création d’applications. Reste que ce marché est très encombré avec la présence de concurrents très implantés comme Claude Code d’Anthropic, Cursor d’Anysphere, Amazon Q ou Copilot de GitHub.

Commentaire