OpenAI a publié officiellement mardi ChatGPT Images 2.0, améliorant considérablement la précision de la génération de texte ainsi que l’esthétique des affiches et des portraits. Le modèle introduit aussi pour la première fois un « mode de réflexion », donnant à la génération d’images des capacités de recherche sur le Web et de sortie par lots d’images multiples, en se rapprochant pleinement des scénarios d’application commerciaux.

(Canva annonce une intégration poussée de Claude, permettant de transformer des ébauches d’IA en livrables de design finis)

Du fruit du hasard à un menu parfait : l’IA a enfin appris à orthographier

En repassant deux ans en arrière, les faiblesses des modèles de génération d’images par IA en matière de génération de texte étaient presque universellement connues. Tant que la consigne incluait des besoins en texte, les résultats obtenus étaient souvent remplis d’erreurs d’orthographe absurdes, voire de fabrication pure et simple. Cela était encore plus grave dans les langues non anglaises comme le chinois, le japonais et le coréen.

Schéma d’une affiche en coréen de l’annonce officielle

Désormais, ChatGPT Images 2.0 peut générer une affiche promotionnelle directement utilisable par les professionnels, avec un texte clair et précis. Ces dernières années, les chercheurs ont exploré activement de nouvelles architectures, comme les modèles (Autoregressive Models) qui reviennent à soi-même, et, grâce à cela, la logique de fonctionnement, la compréhension du texte, ainsi que les capacités de génération et de vérification ont nettement progressé.

Mise en ligne du mode de réflexion : recherche en ligne, cohérence de la composition, tout est au point

La mise à niveau la plus essentielle de ChatGPT Images 2.0 réside dans le « mode de réflexion (Thinking Capabilities) ». Il est actuellement ouvert aux utilisateurs payants de ChatGPT Plus, Pro, version commerciale et version entreprise. Une fois activé, le modèle peut effectuer en temps réel des recherches d’informations sur le Web pour aider à la génération d’images, et peut aussi créer des explications visuelles correspondantes à partir des fichiers téléchargés par l’utilisateur, avant d’effectuer une auto-vérification et une optimisation du contenu des images avant la sortie officielle.

En génération par lots, avec le mode de réflexion, une seule consigne peut produire jusqu’à huit images à la fois, et chaque image peut conserver une apparence cohérente des personnages, des styles d’objets et un style global, ce qui convient à des scénaris de bandes dessinées en planches, à des séries d’images texte pour les réseaux sociaux, voire à des plans d’aménagement des différents espaces pour la décoration intérieure.

Schéma de planches de bandes dessinées de l’annonce officielle

En termes de résolution, le nouveau modèle prend en charge une sortie maximale en 2K, et ajoute aussi plusieurs options de ratios d’aspect de 3:1 à 1:3, répondant davantage à divers besoins commerciaux.

Optimisation majeure pour les langues asiatiques : les utilisateurs de Chine, du Japon et de Corée y gagnent !

En dehors de l’anglais, OpenAI a particulièrement indiqué que Images 2.0 a été significativement optimisé pour l’écriture asiatique : le japonais, le coréen et le chinois, entre autres, présentent des améliorations évidentes.

Des articles de test diffusés récemment à grande échelle sur les communautés technologiques chinoises ont aussi validé cette information. Plusieurs créateurs sur Zhihu ont réalisé, à l’époque, des comparaisons en conditions réelles entre GPT-Image-2 et le concurrent Google Nano Banana Pro, couvrant de nombreux scénarios, dont la conception d’affiches en chinois, des images de couverture e-commerce, les interfaces de médias sociaux et des graphiques de visualisation de données.

Test de GPT-Image 2.0 sur Zhihu

Les résultats des tests montrent que GPT-Image-2 l’emporte nettement sur le plan de l’esthétique des polices en chinois, des niveaux de mise en page et du ressenti global du design. Les affiches générées ont un style davantage proche de véritables supports commerciaux, plutôt que des sorties de type modèle avec un « côté IA » clairement perceptible. L’article indique aussi que GPT-Image-2, dans la reproduction d’éléments d’interface comme des écrans de jeu ou des captures d’écran d’applications de messagerie (et la restitution de scènes avec de vrais portraits), affiche une précision des détails encore plus élevée.

ChatGPT Images 2.0 s’ouvre totalement, l’API est également lancée

À l’heure actuelle, ChatGPT Images 2.0 est disponible gratuitement pour tous les utilisateurs de ChatGPT et de Codex à partir de ce mardi de la semaine. Les utilisateurs payants pourront débloquer des effets de sortie plus avancés. Dans le même temps, OpenAI rend aussi disponible l’API GPT-Image-2. Son prix est calculé selon la qualité de sortie et le classement de la résolution, afin d’offrir aux entreprises et aux développeurs une flexibilité d’intégration.

Il convient de noter que la date de coupure des connaissances du nouveau modèle est décembre 2025. Pour les consignes de génération d’images impliquant des actualités récentes, la précision pourrait donc être limitée dans une certaine mesure. De plus, la vitesse de génération de compositions complexes ne peut pas non plus être aussi instantanée que des réponses textuelles générales, mais il ne faut néanmoins que quelques minutes.

Cet article : ChatGPT Images 2.0 fait son apparition ! La précision de génération de texte augmente, produisez facilement des affiches marketing. Apparut le plus tôt sur Chaîne Nouvelles ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

DeepSeek lance les modèles V4-Pro et V4-Flash à un coût inférieur de 98 % à celui du GPT-5.5 Pro d’OpenAI

Actualités de l’industrie de l’IA

Message de Gate News, 25 avril — DeepSeek a publié des versions préliminaires de V4-Pro et V4-Flash le 24 avril, deux modèles open-weight avec des fenêtres de contexte d’un million de tokens. V4-Pro dispose de 1,6 billion de paramètres au total, mais n’active que 49 milliards par passe d’inférence en utilisant une architecture de type Mixture-of-Experts.

GateNewsIl y a 5h

Le juge rejette les allégations de fraude dans la plainte d’Elon Musk contre OpenAI ; l’affaire progresse vers un procès avec deux allégations restantes

Actualités de l’industrie de l’IA

Message de Gate News, 24 avril — Un juge fédéral a rejeté les allégations de fraude dans la plainte d’Elon Musk contre OpenAI, Sam Altman, Greg Brockman et Microsoft, ouvrant la voie à la poursuite de l’affaire devant le tribunal sur deux allégations restantes : violation de la confiance à but caritatif et enrichissement injustifié. États-Unis.

GateNewsIl y a 8h

Le PDG d'OpenAI, Sam Altman, s'excuse d'avoir omis de signaler à la police le compte banni du tireur de l'école

Actualités de l’industrie de l’IA

Message de Gate News, 25 avril — Le PDG d'OpenAI, Sam Altman, a présenté ses excuses à la communauté de Tamborine, au Canada, pour l'incapacité de l'entreprise à prévenir la police au sujet d'un compte banni lié à Jesse Van Rootselaar, qui a tué huit personnes dans une école en février avant de mettre fin à ses jours. OpenAI

GateNewsIl y a 8h

Les Émirats arabes unis annoncent une transition vers un modèle de gouvernement basé sur l’IA au cours des deux prochaines années

Agent IA Actualités de l’industrie de l’IA

Son Altesse Cheikh Mohammed bin Rashid Al Maktoum a déclaré que l’objectif était que 50% des secteurs gouvernementaux fonctionnent grâce à une IA agentique autonome. La transition comprendra également la formation des employés fédéraux pour « maîtriser l’IA », et sera supervisée par Cheikh Mansour bin Zayed. Points clés :

CoinpediaIl y a 9h

La plateforme de trading d’IA Fere AI lève 1,3 M$ de fonds, menée par Ethereal Ventures

Agent IA Actualités de l’industrie de l’IA

Message de Gate News, 25 avril — Fere AI, une plateforme de trading d’actifs numériques propulsée par l’IA, a annoncé avoir finalisé un tour de financement de 1,3 million de dollars mené par Ethereal Ventures, avec la participation de Galaxy Vision Hill et de Kosmos Ventures, selon Globenewswire. La plateforme prend en charge des réseaux inter-chaînes

GateNewsIl y a 10h

Google augmente avec 40 milliards de dollars d’investissement dans Anthropic : d’abord 10 milliards, puis libération de 30 milliards en fonction des résultats, avec une puissance de calcul de 5 GW de TPU

Actualités de l’industrie de l’IA

Alphabet augmente sa mise sur Anthropic à 40 milliards de dollars, en deux étapes : première injection de 10 milliards de dollars en espèces, valorisation à 3 800 milliards de dollars ; les 300 milliards de dollars restants seront libérés par tranches après l’atteinte des objectifs de performance. Google Cloud fournira 5 GW de ressources de calcul TPU sur cinq ans ; dans le même temps, Amazon a également annoncé un investissement pouvant aller jusqu’à 25 milliards de dollars, ce qui montre que le soutien en puissance de calcul et en capitaux d’Anthropic se renforce en parallèle.

ChainNewsAbmediaIl y a 10h

Commentaire

0/400

Aucun commentaire