OpenAI во вторник официально выпустила ChatGPT Images 2.0, что не только значительно повышает точность генерации текста, но и улучшает дизайнерскую привлекательность на постерах и портретах. Эта модель впервые также вводит «режим мышления», благодаря которому генерация изображений получает возможности сетевого поиска и пакетного вывода нескольких изображений, вплотную приближаясь к сценариям коммерческого применения.
(Canva объявила о глубокой интеграции Claude, позволяя преобразовывать AI-черновики в готовые дизайнерские продукты)
От выдумывания с нуля до идеального меню: AI наконец научился писать без ошибок
Вспомните два года назад: слабые места моделей генерации изображений на основе текста были почти всем очевидны. Если в подсказке были требования к тексту, результаты часто изобиловали абсурдными орфографическими ошибками или даже выдумками. В неанглоязычных языках, таких как китайский, японский и корейский, эта проблема была еще более выраженной.
Официальный анонс: схематичный пример корейского постера
Сегодня ChatGPT Images 2.0 уже может генерировать рекламный постер, который можно сразу использовать поставщикам, а текст получается четким и точным. Исследователи в последние годы активно изучают новые архитектуры с самообращением, такие как (Autoregressive Models), и благодаря этому заметно улучшились логика работы, понимание текста, а также возможности генерации и верификации.
Режим мышления запущен: подключенный поиск и согласованность композиции — все на месте
Самое ключевое обновление ChatGPT Images 2.0 — это «режим мышления (Thinking Capabilities)». Сейчас он доступен оплачивающим пользователям ChatGPT Plus, Pro, коммерческой версии и корпоративной версии. После включения модель может в реальном времени выполнять сетевой поиск информации для поддержки генерации изображений, а также создавать соответствующие визуальные пояснительные изображения на основе файлов, загруженных пользователем, и перед официальным выводом проводить самопроверку и оптимизацию содержимого изображений.
При пакетной генерации в режиме мышления одна подсказка максимум позволяет за один раз вывести до восьми изображений, и между ними сохраняются согласованные образы персонажей, стили объектов и общий художественный стиль. Это подходит для раскадровок комиксов, серийных иллюстраций и текстов для социальных сетей, а также даже для план-схем всех помещений в интерьерном дизайне.
Официальный анонс: схематичный пример раскадровки комикса
По разрешению новая модель поддерживает вывод до 2K и добавляет различные варианты соотношения сторон от 3:1 до 1:3, еще больше удовлетворяя разные коммерческие потребности.
Значительное улучшение для азиатских языков — китайско-японско-корейным пользователям повезло!
Помимо английского, OpenAI особо отмечает, что Images 2.0 серьезно улучшили работу с текстом на азиатских языках: в японском, корейском и китайском — везде есть явные улучшения.
Тестовая статья, распространявшаяся несколько дней назад в китайских технологических сообществах, также подтвердила эту новость. Несколько авторов с Zhihu тогда провели практические сравнения GPT-Image-2 и конкурирующего продукта Google Nano Banana Pro, включая различные сценарии: дизайн китайских постеров, обложки для e-commerce, интерфейсы соцсетей и оцифрованные диаграммы.
Тест статьи Zhihu: GPT-Image 2.0
Результаты тестов показывают, что GPT-Image-2 заметно превосходит в эстетике шрифтов для китайских иероглифов, иерархии верстки и общем ощущении дизайна. Сгенерированные постеры по стилю ближе к реальным коммерческим материалам, а не к шаблонным выводам с явным «AI-ощущением». В статье также указано, что GPT-Image-2 демонстрирует более высокую точность деталей и при воссоздании интерфейсов — например, (как кадры из игр или скриншоты из мессенджеров) — а также в восстановлении сцен с реальными портретами.
ChatGPT Images 2.0 полностью открыта, API также запущен
На данный момент ChatGPT Images 2.0 с этого вторника уже бесплатно доступна для всех пользователей ChatGPT и Codex, а платные пользователи могут разблокировать более продвинутые эффекты вывода. Параллельно OpenAI также открыла GPT-Image-2 API. Цена рассчитывается по уровням качества вывода и разрешения, предоставляя компаниям и разработчикам гибкость для интеграции.
Важно отметить, что у новой модели дата окончания знаний — декабрь 2025 года. Для подсказок по генерации изображений, связанных с самыми свежими событиями, точность может быть ограничена. Кроме того, скорость генерации сложных композиций также не может быть такой же мгновенной, как у обычных текстовых вопросов и ответов, но все равно занимает всего несколько минут.
Эта статья: ChatGPT Images 2.0 выходит в свет! Существенно повышена точность генерации текста, легко создавать маркетинговые постеры — впервые появилась в Цепных новостях ABMedia.
Связанные статьи
Google Cloud инвестирует $750M в продвижение консалтинга по ИИ с McKinsey, Accenture и Deloitte
OpenAI назначает бывшего руководителя Airbnb Эммануэля Марийя для руководства расширением в регионе EMEA
Thinking Machines Lab заключает многомиллиардный контракт на облачные услуги с Google
Операционная прибыль SK Hynix взлетает на 406% в 1-м квартале до рекордного уровня на фоне спроса на AI-чипы
OpenAI достигает $1 -триллионной оценки перед IPO на фоне гонки со SpaceX и Anthropic
Оценка DeepSeek резко растет, превысив $20 млрд, на фоне того, что Tencent и Alibaba взвешивают инвестиции