OpenAI secara resmi meluncurkan ChatGPT Images 2.0 pada hari Selasa, tidak hanya sangat meningkatkan akurasi dalam pembuatan teks, serta keindahan desain pada poster dan foto potret. Model ini juga untuk pertama kalinya memperkenalkan “mode berpikir”, sehingga pembuatan gambar memiliki kemampuan pencarian di web dan output batch multi-gambar, mendekati sepenuhnya skenario penerapan untuk keperluan komersial.
(Canva mengumumkan integrasi mendalam Claude, mewujudkan konversi draf AI menjadi produk desain jadi)
Dari mengarang dari nol hingga menu sempurna: AI akhirnya belajar mengeja
Menilik dua tahun lalu, kelemahan model generasi gambar AI dalam pembuatan teks hampir sudah diketahui semua orang. Selama prompt menyertakan kebutuhan akan teks, hasil keluaran sering kali dipenuhi dengan kesalahan ejaan yang absurd, bahkan mengarang tanpa dasar. Hal ini bahkan lebih parah pada bahasa non-Inggris seperti bahasa Tionghoa, Jepang, dan Korea.
Ilustrasi poster berbahasa Korea dari pengumuman resmi
Kini, ChatGPT Images 2.0 sudah mampu menghasilkan satu poster promosi yang dapat langsung digunakan oleh penyedia, dengan teks yang jelas dan akurat. Peneliti dalam beberapa tahun terakhir secara aktif mengeksplorasi arsitektur-arsitektur baru seperti (Autoregressive Models) dan sejenisnya untuk kembali ke model, sehingga logika operasional, pemahaman terhadap teks, kemampuan generasi, serta verifikasi mengalami peningkatan yang signifikan.
Mode berpikir diluncurkan: pencarian online, konsistensi komposisi semuanya pas
Peningkatan paling inti pada ChatGPT Images 2.0 adalah “Mode Berpikir (Thinking Capabilities)”; saat ini dibuka untuk pengguna berbayar ChatGPT Plus, Pro, versi komersial, dan versi perusahaan. Setelah diaktifkan, model dapat langsung melakukan pencarian informasi di web untuk membantu pembuatan gambar, juga dapat membuat penjelasan visual yang sesuai berdasarkan file yang diunggah pengguna, serta melakukan pemeriksaan diri dan optimasi atas konten gambar sebelum keluaran resmi.
Untuk pembuatan batch, dalam mode berpikir, satu prompt dapat menghasilkan hingga delapan gambar sekaligus, dan setiap gambar dapat mempertahankan konsistensi citra karakter, gaya objek, serta gaya keseluruhan. Ini cocok untuk storyboard komik, rangkaian gambar dan teks untuk media sosial, bahkan hingga gambar perencanaan berbagai ruang untuk desain interior.
Ilustrasi storyboard komik dari pengumuman resmi
Dari sisi resolusi, model baru mendukung keluaran hingga 2K, dan menambahkan opsi berbagai rasio aspek dari 3:1 hingga 1:3, sehingga makin memenuhi kebutuhan bisnis yang beragam.
Bahasa Asia dioptimalkan secara besar-besaran, pengguna Jepang, Tiongkok, dan Korea mendapat kabar baik!
Selain bahasa Inggris, OpenAI secara khusus menyoroti peningkatan besar pada tulisan berbahasa Asia di Images 2.0; bahasa Jepang, Korea, dan Tionghoa semuanya mengalami perbaikan yang jelas.
Artikel uji yang beberapa hari lalu beredar luas di komunitas teknologi Tiongkok juga membuktikan kabar tersebut. Beberapa kreator di Zhihu saat itu melakukan perbandingan uji coba antara GPT-Image-2 dan pesaing Google Nano Banana Pro, mencakup berbagai skenario seperti desain poster berbahasa Tionghoa, gambar sampul e-commerce, antarmuka media sosial, serta bagan visual berbasis data.
Uji GPT-Image 2.0 di artikel Zhihu
Hasil pengujian menunjukkan bahwa GPT-Image-2 secara nyata unggul dalam rasa estetika font Tionghoa, hierarki tata letak, dan nuansa desain secara keseluruhan. Gaya poster yang dihasilkan lebih mendekati materi komersial yang nyata, bukan keluaran model yang tampak jelas “bernuansa AI”. Artikel tersebut juga menyebutkan bahwa pada replikasi antarmuka (seperti tampilan layar permainan atau tangkapan layar aplikasi komunikasi) dan pencocokan adegan orang asli, GPT-Image-2 juga menunjukkan ketepatan detail yang lebih tinggi.
ChatGPT Images 2.0 dibuka sepenuhnya, API juga diluncurkan
Saat ini, ChatGPT Images 2.0 sejak hari Selasa di minggu ini sudah tersedia gratis untuk semua pengguna ChatGPT dan Codex untuk fitur dasar; sementara pengguna berbayar dapat membuka efek keluaran yang lebih lanjut. Bersamaan dengan itu, OpenAI juga membuka akses GPT-Image-2 API, dengan penetapan harga dihitung berdasarkan kualitas output dan pengelompokan resolusi, untuk memberi fleksibilitas integrasi bagi tim perusahaan dan pengembang.
Perlu dicatat bahwa tanggal berakhirnya pengetahuan model baru adalah Desember 2025; untuk prompt pembuatan gambar yang melibatkan peristiwa terkini, akurasi mungkin mengalami batasan tertentu. Selain itu, kecepatan pembuatan komposisi yang rumit juga tidak dapat secepat tanya-jawab teks biasa secara instan, namun tetap hanya membutuhkan beberapa menit.
Artikel ini, ChatGPT Images 2.0 hadir! Akurasi pembuatan teks meningkat pesat, dengan mudah menghasilkan poster pemasaran, pertama kali muncul di Rantai Berita ABMedia.
Artikel Terkait
CEO Google Cloud: Gemini akan Menggerakkan Peluncuran Siri Apple yang Dipersonalisasi pada 2026
Kesepakatan SpaceX-Cursor $60B Memberikan Bukti Baru untuk Argumen Pengampunan SBF
Saham Chegg Anjlok 99% karena AI Mengganggu Pasar Edtech
OpenAI Merilis Model Filter Privasi Open-Source untuk Deteksi dan Penyensoran PII
OpenAI Berencana Menerapkan 30GW Kekuatan Komputasi pada 2030
Agen Penemuan Kerentanan Berbasis AI 360 Menemukan Hampir 1.000 Eksploitasi Zero-Day, Bersaing dengan Mythos