OpenAI a publié officiellement mardi ChatGPT Images 2.0, améliorant considérablement la précision de la génération de texte ainsi que l’esthétique des affiches et des portraits. Le modèle introduit aussi pour la première fois un « mode de réflexion », donnant à la génération d’images des capacités de recherche sur le Web et de sortie par lots d’images multiples, en se rapprochant pleinement des scénarios d’application commerciaux.
(Canva annonce une intégration poussée de Claude, permettant de transformer des ébauches d’IA en livrables de design finis)
Du fruit du hasard à un menu parfait : l’IA a enfin appris à orthographier
En repassant deux ans en arrière, les faiblesses des modèles de génération d’images par IA en matière de génération de texte étaient presque universellement connues. Tant que la consigne incluait des besoins en texte, les résultats obtenus étaient souvent remplis d’erreurs d’orthographe absurdes, voire de fabrication pure et simple. Cela était encore plus grave dans les langues non anglaises comme le chinois, le japonais et le coréen.
Schéma d’une affiche en coréen de l’annonce officielle
Désormais, ChatGPT Images 2.0 peut générer une affiche promotionnelle directement utilisable par les professionnels, avec un texte clair et précis. Ces dernières années, les chercheurs ont exploré activement de nouvelles architectures, comme les modèles (Autoregressive Models) qui reviennent à soi-même, et, grâce à cela, la logique de fonctionnement, la compréhension du texte, ainsi que les capacités de génération et de vérification ont nettement progressé.
Mise en ligne du mode de réflexion : recherche en ligne, cohérence de la composition, tout est au point
La mise à niveau la plus essentielle de ChatGPT Images 2.0 réside dans le « mode de réflexion (Thinking Capabilities) ». Il est actuellement ouvert aux utilisateurs payants de ChatGPT Plus, Pro, version commerciale et version entreprise. Une fois activé, le modèle peut effectuer en temps réel des recherches d’informations sur le Web pour aider à la génération d’images, et peut aussi créer des explications visuelles correspondantes à partir des fichiers téléchargés par l’utilisateur, avant d’effectuer une auto-vérification et une optimisation du contenu des images avant la sortie officielle.
En génération par lots, avec le mode de réflexion, une seule consigne peut produire jusqu’à huit images à la fois, et chaque image peut conserver une apparence cohérente des personnages, des styles d’objets et un style global, ce qui convient à des scénaris de bandes dessinées en planches, à des séries d’images texte pour les réseaux sociaux, voire à des plans d’aménagement des différents espaces pour la décoration intérieure.
Schéma de planches de bandes dessinées de l’annonce officielle
En termes de résolution, le nouveau modèle prend en charge une sortie maximale en 2K, et ajoute aussi plusieurs options de ratios d’aspect de 3:1 à 1:3, répondant davantage à divers besoins commerciaux.
Optimisation majeure pour les langues asiatiques : les utilisateurs de Chine, du Japon et de Corée y gagnent !
En dehors de l’anglais, OpenAI a particulièrement indiqué que Images 2.0 a été significativement optimisé pour l’écriture asiatique : le japonais, le coréen et le chinois, entre autres, présentent des améliorations évidentes.
Des articles de test diffusés récemment à grande échelle sur les communautés technologiques chinoises ont aussi validé cette information. Plusieurs créateurs sur Zhihu ont réalisé, à l’époque, des comparaisons en conditions réelles entre GPT-Image-2 et le concurrent Google Nano Banana Pro, couvrant de nombreux scénarios, dont la conception d’affiches en chinois, des images de couverture e-commerce, les interfaces de médias sociaux et des graphiques de visualisation de données.
Test de GPT-Image 2.0 sur Zhihu
Les résultats des tests montrent que GPT-Image-2 l’emporte nettement sur le plan de l’esthétique des polices en chinois, des niveaux de mise en page et du ressenti global du design. Les affiches générées ont un style davantage proche de véritables supports commerciaux, plutôt que des sorties de type modèle avec un « côté IA » clairement perceptible. L’article indique aussi que GPT-Image-2, dans la reproduction d’éléments d’interface comme des écrans de jeu ou des captures d’écran d’applications de messagerie (et la restitution de scènes avec de vrais portraits), affiche une précision des détails encore plus élevée.
ChatGPT Images 2.0 s’ouvre totalement, l’API est également lancée
À l’heure actuelle, ChatGPT Images 2.0 est disponible gratuitement pour tous les utilisateurs de ChatGPT et de Codex à partir de ce mardi de la semaine. Les utilisateurs payants pourront débloquer des effets de sortie plus avancés. Dans le même temps, OpenAI rend aussi disponible l’API GPT-Image-2. Son prix est calculé selon la qualité de sortie et le classement de la résolution, afin d’offrir aux entreprises et aux développeurs une flexibilité d’intégration.
Il convient de noter que la date de coupure des connaissances du nouveau modèle est décembre 2025. Pour les consignes de génération d’images impliquant des actualités récentes, la précision pourrait donc être limitée dans une certaine mesure. De plus, la vitesse de génération de compositions complexes ne peut pas non plus être aussi instantanée que des réponses textuelles générales, mais il ne faut néanmoins que quelques minutes.
Cet article : ChatGPT Images 2.0 fait son apparition ! La précision de génération de texte augmente, produisez facilement des affiches marketing. Apparut le plus tôt sur Chaîne Nouvelles ABMedia.
Articles similaires
DeepSeek lance les modèles V4-Pro et V4-Flash à un coût inférieur de 98 % à celui du GPT-5.5 Pro d’OpenAI
Le juge rejette les allégations de fraude dans la plainte d’Elon Musk contre OpenAI ; l’affaire progresse vers un procès avec deux allégations restantes
Le PDG d'OpenAI, Sam Altman, s'excuse d'avoir omis de signaler à la police le compte banni du tireur de l'école
Les Émirats arabes unis annoncent une transition vers un modèle de gouvernement basé sur l’IA au cours des deux prochaines années
La plateforme de trading d’IA Fere AI lève 1,3 M$ de fonds, menée par Ethereal Ventures
Google augmente avec 40 milliards de dollars d’investissement dans Anthropic : d’abord 10 milliards, puis libération de 30 milliards en fonction des résultats, avec une puissance de calcul de 5 GW de TPU