Une lecture complète de GPT-5.5 : À partir d'aujourd'hui, OpenAI ne « vend » plus de jetons

Auteur : Helen

Heure locale du 23 avril, OpenAI a officiellement lancé le nouveau modèle phare GPT-5.5, que l’entreprise positionne comme « un tout nouveau niveau d’intelligence orienté vers le travail réel », marquant également une étape importante vers une nouvelle façon de travailler avec les ordinateurs.

Les deux points principaux de cette annonce sont :

Premièrement, une avancée en termes d’efficacité : pour un même délai, le modèle est plus grand, mais la vitesse n’a pas ralenti. GPT-5.5 dispose d’une fenêtre contextuelle atteignant 1 million de tokens, mais il ne s’agit pas simplement d’une mise à niveau des capacités de GPT-5.4, plutôt d’une intelligence accrue tout en maintenant la même latence.

Deuxièmement, lors de l’entraînement, GPT-5.5 a participé à l’optimisation de son infrastructure de raisonnement. En résumé, l’IA a pour la première fois appris à ajuster ses propres paramètres.

Dans le cadre du test Terminal-Bench 2.0, qui évalue la capacité à gérer des flux de travail complexes en ligne de commande, GPT-5.5 a obtenu un score de 82,7 %, dépassant Claude Opus 4.7 avec 69,4 %, de plus de 13 points ; dans le test OSWorld-Verified, qui mesure la capacité à faire fonctionner une vraie machine de façon autonome, le taux de réussite est de 78,7 %, supérieur à la ligne de base humaine ; dans le test GDPval, qui couvre 44 types de tâches professionnelles, 84,9 % des missions atteignent ou dépassent le niveau d’un expert du secteur.

Cependant, le prix de GPT-5.5 a également considérablement augmenté.

Le tarif API est de 5 dollars par million de tokens pour l’entrée, et 30 dollars pour la sortie, soit le double de GPT-5.4 (2,50 dollars pour l’entrée, 15 dollars pour la sortie), mais l’entreprise insiste sur le fait que le nombre de tokens nécessaires pour accomplir la même tâche a été considérablement réduit, ce qui pourrait ne pas entraîner une augmentation significative du coût global. L’API GPT-5.5 Pro est tarifée à 30 dollars par million de tokens pour l’entrée, 180 dollars pour la sortie. Les traitements en batch et la tarification flexible bénéficient d’une réduction de moitié, avec une priorité de traitement 2,5 fois supérieure au tarif standard.

Dans ChatGPT, GPT-5.5 est lancé sous la forme « GPT-5.5 Thinking », remplaçant progressivement les versions précédentes.

Une nouveauté est qu’avant de commencer à réfléchir, le modèle fournit d’abord un aperçu de sa démarche, permettant à l’utilisateur d’intervenir à tout moment pour ajuster la direction.

En résumé, en une phrase, la signification de GPT-5.5 : les modèles précédents étaient une collection de capacités, GPT-5.5 se rapproche davantage d’un système de travail capable de planifier, vérifier et faire avancer ses tâches en continu.

01 84,9 % des tâches, au niveau d’un professionnel

Comparaison de GPT-5.5 avec ses concurrents dans les principaux benchmarks Terminal-Bench 2.0, GDPval, OSWorld-Verified

Commençons par l’évaluation de la performance dans des scénarios professionnels réels. OpenAI a utilisé un benchmark appelé « GDPval », qui demande au modèle d’accomplir une série complète de tâches professionnelles. Le test couvre 44 scénarios, incluant la modélisation financière, l’analyse juridique, la rédaction de rapports en science des données, la planification opérationnelle, etc.

Les résultats montrent que GPT-5.5 atteint ou dépasse le niveau d’un professionnel dans 84,9 % des tâches. En comparaison, GPT-5.4 est à 83,0 %, Claude Opus 4.7 à 80,3 %, et Gemini 3.1 Pro ne dépasse pas 67,3 %.

Cet écart ne se limite pas au score global. Sur la modélisation dans les tableurs, GPT-5.5 a obtenu 88,5 % lors de tests internes ; pour des tâches de modélisation de niveau banque d’investissement, il reste en tête par rapport à la version précédente. Les premiers retours des testeurs sont également unanimes : les réponses de GPT-5.5 Pro sont plus complètes, structurées et pratiques que celles de GPT-5.4 Pro, notamment dans les domaines commercial, juridique, éducatif et en science des données.

Il est facile de devenir insensible aux chiffres, mais cette fois, OpenAI a carrément dévoilé ses propres bureaux pour vous montrer.

OpenAI indique que plus de 85 % de ses employés utilisent Codex chaque semaine, dans plusieurs départements comme la finance, la communication, le marketing, le produit, la science des données. L’équipe de communication a analysé six mois de données sur les invitations à des conférences, créant un processus d’automatisation de leur hiérarchisation ; l’équipe financière a examiné 24 771 formulaires K-1, totalisant 71 637 pages, terminés deux semaines plus tôt que l’année dernière ; l’équipe marketing utilise l’automatisation pour générer des rapports hebdomadaires, économisant entre 5 et 10 heures par personne chaque semaine.

Ce n’est plus une démo de laboratoire, mais une routine de travail.

02 Le modèle de programmation autonome le plus puissant

OpenAI affirme que GPT-5.5 est actuellement son modèle de programmation autonome le plus avancé.

Sur Terminal-Bench 2.0 (testant la gestion de flux de travail complexes en ligne de commande, nécessitant planification, itérations et coordination d’outils), GPT-5.5 a obtenu 82,7 %, contre 75,1 % pour GPT-5.4, une amélioration d’environ 8 points de pourcentage, tout en consommant moins de tokens. Sur SWE-Bench Pro (évaluation de la capacité à résoudre en une seule étape des problèmes réels sur GitHub), GPT-5.5 a obtenu 58,6 %. Lors du test interne Expert-SWE (tâches de programmation longues, avec un temps médian d’environ 20 heures pour un humain), GPT-5.5 continue de surpasser GPT-5.4.

Graphique de dispersion de Terminal-Bench 2.0 et Expert-SWE

Sous l’impulsion de Codex, GPT-5.5 peut désormais partir d’un simple prompt pour réaliser tout le processus de développement, de génération de code, tests fonctionnels à la débogage visuel.

Une démonstration officielle d’OpenAI montre un projet spatial basé sur des données orbitales réelles de la NASA, avec contrôle interactif 3D, simulation gravitationnelle précise ; un traceur sismique connecté à une source de données en temps réel, avec visualisation, illustrant la capacité du modèle à appeler des API externes, traiter des données dynamiques et rendre en temps réel.

Concernant le retour d’expérience. Dan Shipper, fondateur et CEO d’Every, raconte une expérience : il avait rencontré un bug après mise en ligne, qu’il n’avait pas réussi à corriger en plusieurs jours, et a dû faire appel au meilleur ingénieur de la société pour réécrire une partie du système. Après la sortie de GPT-5.5, il a fait une expérience : remettre le modèle dans l’état du bug non corrigé pour voir s’il pouvait lui-même proposer une solution identique à celle de l’ingénieur. GPT-5.4 n’y arrivait pas, GPT-5.5 oui. Il commente : « C’est le premier modèle de programmation que j’ai utilisé qui possède une clarté conceptuelle réelle. »

Un ingénieur de Nvidia a commenté plus franchement : « Perdre l’accès à GPT-5.5, c’est comme une amputation. »

Michael Truell, cofondateur et CEO de Cursor, ajoute : « GPT-5.5 est plus intelligent et plus résilient que GPT-5.4, capable de tenir plus longtemps dans des tâches longues et complexes sans s’arrêter prématurément — ce qui est précisément ce dont ont besoin les ingénieurs. »

03 Travail de connaissance : l’IA peut enfin « utiliser » un ordinateur

Dans le test OSWorld-Verified (évaluation de la capacité à manipuler une vraie machine), GPT-5.5 a un taux de réussite de 78,7 %, supérieur à GPT-5.4 (75,0 %) et à Claude Opus 4.7 (78,0 %).

Ce n’est pas une simple analyse d’image, mais une manipulation réelle de l’écran : voir l’interface, cliquer, saisir, basculer entre plusieurs outils, jusqu’à la tâche terminée. GPT-5.5 donne une première impression que l’IA peut vraiment utiliser un ordinateur en collaboration avec l’utilisateur.

Vidéo de démonstration de modélisation financière

Sur le flux de travail de service client télécom Tau2-bench, GPT-5.5 atteint une précision de 98,0 % sans ajustement de prompt, contre 92,8 % pour GPT-5.4.

Cela indique que le modèle comprend suffisamment bien l’intention de la tâche pour traiter des dialogues complexes à plusieurs étapes sans prompts soigneusement conçus.

En termes de recherche d’outils, GPT-5.5 obtient 84,4 % dans le test BrowseComp, et 90,1 % pour la version Pro, montrant une capacité robuste à rechercher et intégrer des informations provenant de plusieurs sources dans des tâches de recherche ou d’analyse.

04 Recherche scientifique : aider à découvrir de nouvelles preuves mathématiques

Ce qui est peut-être le plus surprenant dans cette annonce, c’est la performance de GPT-5.5 dans le domaine de la recherche.

Autrefois considéré comme un « outil auxiliaire » pour la recherche — recherche bibliographique, codage, organisation de données —, cette fois, son rôle s’est nettement déplacé vers des tâches plus centrales : raisonnement complexe, voire découverte.

Sur GeneBench (évaluation de l’analyse de données en génétique et biologie quantitative), GPT-5.5 a obtenu 25,0 %, contre 19,0 % pour GPT-5.4. Ces tâches nécessitent généralement plusieurs jours de travail pour un expert, le modèle doit raisonner sur des données potentiellement erronées, gérer des facteurs confondants cachés, et appliquer correctement des méthodes statistiques modernes.

Les courbes montrent que, à mesure que le nombre de tokens générés augmente, le score de GPT-5.5 progresse plus vite que celui de GPT-5.4, avec une nette divergence vers 15 000 tokens — ce qui indique qu’en face de tâches longues nécessitant un raisonnement approfondi, l’avantage de GPT-5.5 s’amplifie avec la complexité.

Sur BixBench (benchmark en bio-informatique et analyse de données du monde réel), GPT-5.5 atteint 80,5 %, devançant GPT-5.4 (74,0 %), et se classe parmi les meilleurs modèles évalués.

Ce qui attire vraiment l’attention, c’est un cas précis : une version interne de GPT-5.5 équipée d’outils personnalisés a aidé à découvrir une nouvelle preuve mathématique concernant le nombre de Ramsey, vérifiée dans l’outil de preuve formelle Lean. Le nombre de Ramsey est un objet central en combinatoire, avec peu de résultats connus, très difficile à établir. Il ne s’agit pas d’un simple code ou d’une explication, mais d’une contribution réelle à une démonstration mathématique.

Dans la pratique, cela a aussi un impact concret. Derya Unutmaz, professeur en immunologie à Jackson Laboratory, a utilisé GPT-5.5 Pro pour analyser un jeu de données d’expression génique comprenant 62 échantillons et près de 28 000 gènes, générant un rapport détaillé, identifiant des découvertes clés et des questions de recherche — une tâche qui, selon lui, aurait normalement pris plusieurs mois à une équipe.

Bartosz Naskręcki, professeur assistant en mathématiques à l’Université Adam Mickiewicz de Poznań, a utilisé une simple invite pour faire construire en 11 minutes une application d’algèbre géométrique avec GPT-5.5 dans Codex, visualisant l’intersection de deux surfaces quadratiques et transformant la courbe en modèle de Weierstrass. Les coefficients d’équation affichés en temps réel peuvent directement servir à la recherche mathématique ultérieure, du prompt à l’outil de recherche opérationnelle, tout réalisé de façon autonome par le modèle.

Capture d’écran de l’application d’algèbre géométrique construite par Naskręcki — visualisation de l’intersection de surfaces quadratiques et calcul en temps réel de l’équation de Weierstrass

L’évaluation de Brandon White, cofondateur de Axiom Bio, est plus directe : « Si OpenAI maintient cette dynamique, la découverte de médicaments pourrait changer d’ici la fin de l’année. »

05 Efficacité du raisonnement : l’IA a pour la première fois optimisé sa propre infrastructure

Un détail souvent négligé dans cette annonce, mais qui pourrait être la avancée la plus significative sur le plan technique.

GPT-5.5 est un modèle plus grand et plus puissant, mais sa latence par token en service réel reste équivalente à celle de GPT-5.4. Pour maintenir cette capacité tout en étant plus performant, OpenAI a entièrement repensé son système d’inférence — et Codex ainsi que GPT-5.5 ont directement participé à cette optimisation.

L’analyse par Artificial Analysis montre cela clairement : sur un graphique de l’indice d’intelligence (axe horizontal en échelle logarithmique, axe vertical en score global), GPT-5.5 domine non seulement GPT-5.4, Claude Opus 4.7 et Gemini 3.1 Pro Preview, mais surtout, dans la zone où le nombre de tokens consommés est faible, il atteint déjà le même score que d’autres modèles nécessitant beaucoup plus de tokens — une démonstration claire d’une meilleure efficacité à coût réduit.

Graphique de l’indice d’intelligence Artificial Analysis

Concrètement, le défi était d’équilibrer la charge : auparavant, les requêtes étaient divisées en blocs fixes pour répartir la charge GPU, mais cette segmentation statique n’était pas optimale pour tous les flux. Codex a analysé plusieurs semaines de données de flux de production, et a développé un algorithme heuristique personnalisé, augmentant la vitesse de génération de tokens de plus de 20 %.

GPT-5.5 a été conçu en collaboration avec les systèmes NVIDIA GB200 et GB300 NVL72, pour la conception, l’entraînement et le déploiement coordonnés. En d’autres termes, cette génération de modèles a participé à l’optimisation même de leur architecture d’inférence — ce n’est pas une métaphore, c’est une amélioration concrète du système par l’IA elle-même.

06 Cybersécurité : capacités renforcées, contrôle resserré

GPT-5.5 montre une amélioration claire en cybersécurité. Dans le test CyberGym, il obtient 81,8 %, contre 79,0 % pour GPT-5.4 et 73,1 % pour Claude Opus 4.7. Lors des défis internes « Capture the Flag » (CTF), il atteint 88,1 %, contre 83,7 % pour GPT-5.4.

Graphique à barres CyberGym et graphique dispersé des défis CTF

OpenAI classe la capacité de GPT-5.5 en cybersécurité et en biologie/chimie comme « haute » dans le cadre du plan d’urgence, sans atteindre encore le niveau « critique », mais avec une nette progression par rapport à la génération précédente. La société admet aussi que le nouveau filtre de gestion des risques, plus strict, pourrait initialement gêner certains utilisateurs, et prévoit de continuer à l’ajuster.

Pour équilibrer la défense et l’accès, OpenAI a lancé le programme « Accès fiable en cybersécurité » : chercheurs en sécurité et défenseurs d’infrastructures critiques peuvent demander un accès plus souple pour utiliser ces capacités avancées avec moins de friction.

En arrière-plan, la logique est claire : des capacités en cybersécurité ou en biologie, même si elles sont sensibles, se diffusent presque inévitablement. Plutôt que d’essayer de tout limiter, il vaut mieux privilégier ceux qui font la défense — leur donner en priorité les outils les plus avancés. En résumé, ce n’est pas une question d’« ouvrir ou non », mais de « à qui donner en premier ».

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler