
Mais 1 000 jetons par seconde est en réalité modeste par rapport aux normes de Cerebras. L’entreprise a mesuré 2 100 jetons par seconde sur Llama 3.1 70B et signalé 3 000 jetons par seconde sur le modèle gpt-oss-120B à poids ouvert d’OpenAI, ce qui suggère que la vitesse relativement inférieure de Codex-Spark reflète la surcharge d’un modèle plus grand ou plus complexe.
Les agents de codage de l’IA ont eu un année marquanteavec des outils comme Codex d’OpenAI et anthropique Claude Code atteindre un nouveau niveau d’utilité pour créer rapidement des prototypes, des interfaces et du code passe-partout. OpenAI, Google et Anthropic se sont tous battus pour proposer des agents de codage plus performants, et la latence est devenue ce qui sépare les gagnants ; un modèle qui code plus rapidement permet à un développeur d’itérer plus rapidement.
Face à la concurrence féroce d’Anthropic, OpenAI a itéré sa gamme Codex à un rythme rapide, libération GPT-5.2 en décembre après que le PDG Sam Altman a publié une note interne « code rouge » sur la pression concurrentielle de Google, puis a expédié GPT-5.3-Codex il y a quelques jours à peine.
Se diversifier loin de Nvidia
L’histoire matérielle plus profonde de Spark pourrait avoir plus de conséquences que ses scores de référence. Le modèle fonctionne sur le Wafer Scale Engine 3 de Cerebras, une puce de la taille d’une assiette que possède Cerebras. construit son activité depuis au moins 2022. OpenAI et Cerebras annoncé leur partenariat en janvier, et Codex-Spark en est le premier produit.
OpenAI a passé l’année dernière à réduire systématiquement sa dépendance à l’égard de Nvidia. La société signé un accord pluriannuel massif avec AMD en octobre 2025, frappé un accord de cloud computing de 38 milliards de dollars avec Amazon en novembre, et a été conception sa propre puce AI personnalisée pour une éventuelle fabrication par TSMC.
Pendant ce temps, un accord d’infrastructure prévu de 100 milliards de dollars avec Nvidia a été pétillant jusqu’à présent, même si Nvidia s’est depuis engagé à investir 20 milliards de dollars. Reuters signalé qu’OpenAI n’était plus satisfait de la vitesse de certaines puces Nvidia pour les tâches d’inférence, ce qui est exactement le genre de charge de travail pour laquelle OpenAI a conçu Codex-Spark.
Quelle que soit la puce placée sous le capot, la vitesse compte, même si elle peut se faire au détriment de la précision. Pour les développeurs qui passent leurs journées dans un éditeur de code à attendre les suggestions de l’IA, 1 000 jetons par seconde peuvent ressembler moins à piloter soigneusement un puzzle qu’à faire fonctionner une scie à refendre. Surveillez simplement ce que vous coupez.
