Avec Jalapeno, OpenAI annonce, avec son partenaire Broadcom, la production d'une puce de type ASIC dédiée à l’inférence de LLM - un peu comme les TPU de Google sont des ASIC IA - avec une architecture pensée spécifiquement autour des kernels, des schémas de mouvement mémoire et des patterns de serving de ses modèles. OpenAI a conçu l’architecture de Jalapeno et la stack système orientée LLM, tandis que Broadcom apporte l’implémentation silicium, la partie réseau et assure au final le packaging. A partir de sa compréhension fine de l’exécution de ChatGPT, de Codex, de son API et de futurs agents IA, OpenAI a conçu Jalapeno « from scratch »  en cherchant un compromis entre la bande passante des accélérateurs actuels et une latence proche de systèmes d’inférence très spécialisés. Concrètement, OpenAI définit le jeu de blocs fonctionnels, la hiérarchie mémoire (HBM, SRAM, interconnexions sur puce), les primitives de calcul optimisées pour les opérations clé de l’inférence LLM (matmul, attention, déquantisation, etc.), ainsi que l’intégration avec ses frameworks et serveurs de modèles. L’entreprise pilote aussi la roadmap de la plateforme, de manière à ce que Jalapeno et ses successeurs restent alignés sur l’évolution de ses futurs modèles (par exemple GPT‑5.x et suivants) et de ses workloads internes.

Pour l’heure, très peu de détails ont filtré sur les modèles et caractéristiques des accélérateurs, puces et technologies réseau utilisés. OpenAI indique par ailleurs s'appuyer également sur le savoir-faire de Celestica pour fabriquer et intégrer cette architecture dans différents racks, systèmes informatiques et cartes électroniques. Jalapeno est taillé pour l’inférence des grands modèles de langage (LLM) modernes et non pour des workloads IA généralistes. « L'objectif est d'allier la puissance et le débit des principaux accélérateurs d'IA actuels à une latence plus proche de celle des systèmes d'inférence spécialisés les plus rapides, ce qui rend Jalapeño particulièrement adapté aux produits LLM dynamiques à grande échelle », assure OpenAI. Des samples de Jalapeno sont actuellement testés pour des charges de travail d’apprentissage automatique basés sur GPT-5.3-Codex-Spark. A terme Jalapeno doit être déployé « à l'échelle du gigawatt avec des partenaires de centres de données, sur plusieurs générations », fait savoir OpenAI.

Un développement en seulement 9 mois grâce à l’IA

Bien qu’OpenAI soit encore en train d’évaluer les performances finales de Jalapeno, les premiers tests montrent un rapport performances/watt nettement supérieur à celui des solutions de pointe actuelles. Un rapport technique détaillé sur les performances sera présenté dans les prochains mois. « L’architecture réduit les transferts de données et équilibre les ressources de calcul, de mémoire et de réseau afin d’atteindre un taux d’utilisation réel beaucoup plus proche des performances maximales théoriques », souligne OpenAI.

Selon le fournisseur IA, le développement de cette architecture n’a nécessité que 9 mois entre la phase de conception et celle de l’intégration fonctionnelle dans un circuit intégré. « Cette rapidité est le fruit d’un co-développement logiciel-matériel approfondi avec les équipes d’ingénierie d’OpenAI, de l’expertise de Broadcom en matière de mise en œuvre sur silicium, ainsi que de l’utilisation des modèles d’OpenAI pour accélérer certaines étapes du processus de conception et d’optimisation », peut-on lire dans le communiqué. « Si l'IA peut aider les ingénieurs à concevoir plus rapidement de meilleures puces, elle permettra de réduire le coût du calcul à l'échelle du secteur et contribuera à démocratiser l'accès à l'IA de pointe », assure OpenAI.