Fevrier 2026. OpenAI sort deux modeles de programmation qui adressent des besoins differents. GPT-5.3-Codex pousse le raisonnement agentique plus loin que son predecesseur, avec un gain de vitesse de 25 % et des scores records sur SWE-Bench Pro et Terminal-Bench 2.0. Codex-Spark prend une direction completement differente : un modele compact construit pour la vitesse brute, capable de produire plus de 1 000 tokens par seconde grace au hardware Cerebras.
Les deux modeles fonctionnent dans la plateforme OpenAI Codex. Un environnement cloud ou des agents IA lisent des depots de code, ecrivent du code, lancent des tests et corrigent des erreurs dans des environnements sandboxes. Le tout accessible via un CLI et des extensions VS Code.
Pour les equipes tech en France et dans la francophonie, ces outils changent la donne. Pas seulement pour les developpeurs qui les utilisent au quotidien, mais pour toute entreprise qui construit ou integre des produits IA.
GPT-5.3-Codex : un agent qui raisonne sur du vrai code
Il y a une difference fondamentale entre un modele qui suggere des lignes de code et un modele qui resout des problemes d’ingenierie logicielle. GPT-5.3-Codex fait partie de la seconde categorie.
Face a une tache, le modele ne genere pas une reponse unique. Il lit le depot entier. Il comprend les dependances entre modules. Il localise le code pertinent, ecrit des modifications sur plusieurs fichiers, execute les tests, lit les messages d’erreur et s’autocorrige. C’est un processus iteratif, comme celui d’un developpeur humain.
Par rapport a GPT-5.2-Codex, les ameliorations sont concretes. Le raisonnement est plus solide sur les problemes complexes. Sur SWE-Bench Pro (qui utilise de vrais issues GitHub avec de la complexite reelle), le modele obtient les meilleurs scores du marche. Sur Terminal-Bench 2.0, qui teste la capacite a operer dans un terminal (executer des commandes, interpreter les sorties, decider quoi faire ensuite), il domine aussi.
Le gain de 25 % en vitesse s’accumule vite. Chaque tache agentique implique des dizaines d’appels au modele : lecture, raisonnement, ecriture, test, correction. Un gain de vitesse sur chaque appel se multiplie sur l’ensemble du cycle. Une tache de 8 minutes passe a 6. Sur une journee avec des centaines de taches, ca represente des heures.
Codex-Spark : la programmation a la vitesse de la pensee
La plupart des grands modeles de langage produisent entre 30 et 150 tokens par seconde. Suffisant pour une conversation. Mais quand on genere du code long, l’attente est perceptible. On pose la question, on attend quelques secondes, le code arrive progressivement.
Codex-Spark change cette dynamique. Plus de 1 000 tokens par seconde. Une fonction de 200 lignes apparait en moins d’une seconde. L’interaction devient fluide : l’IA ne ralentit plus le rythme du developpeur.
Cette vitesse repose sur un partenariat avec Cerebras et leur Wafer Scale Engine 3. Contrairement aux clusters GPU classiques ou les donnees circulent entre de nombreuses puces separees, l’architecture Cerebras place tout sur une seule puce a l’echelle d’un wafer de silicium. Le resultat : une latence reduite et un debit d’inference tres eleve.
OpenAI a concu Codex-Spark pour tirer parti de cette architecture. Le modele est plus compact que GPT-5.3-Codex. Il echange de la profondeur de raisonnement contre de la rapidite. En pratique, c’est le modele pour l’iteration rapide : autocompletion, petites modifications, programmation interactive en binome avec l’IA. Pour les decisions architecturales profondes, GPT-5.3-Codex reste le bon choix.
Au lancement, Codex-Spark est disponible en preview pour les utilisateurs ChatGPT Pro. Fenetre de contexte de 128K tokens, texte uniquement.
Le lien entre IA de programmation et IA vocale
Un assistant telephonique IA comme Safina est un systeme logiciel complexe. Traitement vocal en temps reel, inference de modeles de langage, synthese vocale, integration telephonique, gestion de l’etat conversationnel. L’architecture derriere l’IA vocale en temps reel comporte de nombreux composants qui doivent fonctionner ensemble avec une latence minimale.
Quand une IA de programmation peut lire toute la base de code, comprendre les interactions entre composants et produire des modifications correctes sur plusieurs fichiers, l’equipe de developpement accelere. Les corrections de bugs passent de plusieurs heures a quelques minutes. Les prototypes de nouvelles fonctionnalites prennent un jour au lieu d’une semaine.
Pour les produits IA en particulier, cette boucle de retour est precieuse. Chaque amelioration d’un agent vocal necessite des tests avec de vraies conversations, de vrais cas limites, de vraies conditions de telephonie. Un developpement plus rapide signifie plus d’iterations. Plus d’iterations signifient un meilleur produit.
Mais il y a une parallele plus profonde. Codex-Spark pousse vers l’interaction en temps reel avec 1 000+ tokens par seconde. L’IA vocale suit exactement la meme trajectoire. Un appel telephonique ne peut pas attendre. Quand quelqu’un pose une question, la reponse doit arriver en quelques centaines de millisecondes. Au-dela, la conversation semble artificielle.
Les deux domaines convergent vers le meme constat. L’IA qui fonctionne en temps reel est un produit radicalement different de l’IA qui fonctionne en lot. Un modele de programmation a 100 tokens par seconde, c’est un outil qu’on interroge. A 1 000 tokens par seconde, c’est un collegue. Un modele vocal avec 500 ms de latence, c’est une machine. Avec 200 ms, c’est un interlocuteur.
Ce que ca signifie pour le marche francais
La France a un ecosysteme tech dynamique, avec des initiatives publiques fortes autour de l’IA (le plan France 2030, les investissements dans Mistral AI). Mais la realite pour la plupart des entreprises, c’est que les equipes de developpement sont petites et les besoins sont grands.
Des outils comme GPT-5.3-Codex permettent a des equipes reduites de maintenir des systemes complexes. Un developpeur equipe d’un agent de programmation agentique peut produire autant qu’une equipe de trois ou quatre il y a quelques annees. Ca ne remplace personne. Ca augmente la capacite de chacun.
Le hardware specialise derriere Codex-Spark merite aussi qu’on s’y attarde. Si des puces comme celles de Cerebras peuvent pousser l’inference a plus de 1 000 tokens par seconde pour la programmation, des approches similaires pourraient reduire encore la latence des modeles vocaux. Le chemin vers des conversations telephoniques avec l’IA a latence quasi nulle passe aussi par le materiel.
Pour les entreprises qui utilisent deja des outils IA ou qui envisagent de le faire, le message est simple. Les briques de base s’ameliorent vite. Les modeles de programmation deviennent des agents autonomes. Les modeles vocaux deviennent des interlocuteurs naturels. Et les deux evolutions se nourrissent mutuellement.
Sources
- Introducing GPT-5.3-Codex - OpenAI
- Introducing GPT-5.3-Codex-Spark - OpenAI
- OpenAI Codex - OpenAI