Понимание GPT-5.5 за один раз: с сегодняшнего дня OpenAI «не продает» токены

Автор: Хелен

Местное время 23 апреля, OpenAI официально выпустила новое поколение флагманской модели GPT-5.5, которая официально позиционируется как «новый уровень интеллекта, ориентированный на реальные задачи», и является важным шагом на пути к совершенно новым способам работы с компьютерами.

В этом релизе основное внимание уделяется двум аспектам:

Первое — прорыв в эффективности: при одинаковой задержке модель стала больше, но скорость не снизилась. Контекстное окно GPT-5.5 достигло 1 миллиона токенов, однако это не просто обновление возможностей GPT-5.4, а повышение интеллекта при сохранении той же задержки за счет более высокой эффективности.

Второе — в процессе обучения GPT-5.5 участвовала в оптимизации собственной инфраструктуры для рассуждений. Короче говоря, ИИ впервые научился помогать себе в настройке параметров.

В тесте сложных командных рабочих процессов Terminal-Bench 2.0 GPT-5.5 набрала 82,7%, Claude Opus 4.7 — 69,4%, что на 13 пунктов выше; в тесте независимой работы ИИ с реальным компьютером OSWorld-Verified успешность составила 78,7%, превзойдя человеческую базу; в тесте по 44 профессиональным областям GDPval 84,9% задач достигли или превзошли уровень экспертов отрасли.

Однако цена GPT-5.5 заметно выросла.

Ценообразование API — 5 долларов за миллион входных токенов и 30 долларов за вывод, что вдвое больше по сравнению с GPT-5.4 (2,50 доллара за миллион входных и 15 долларов за вывод), однако официально подчеркивается, что для выполнения одинаковых задач требуется значительно меньше токенов, и совокупные затраты могут не увеличиться существенно. Цена GPT-5.5 Pro API — 30 долларов за миллион входных токенов и 180 долларов за вывод. Объемные обработки и гибкое ценообразование предоставляются по полцены, при этом приоритетная обработка стоит в 2,5 раза дороже стандартной.

В ChatGPT GPT-5.5 представлен в виде «GPT-5.5 Thinking», постепенно заменяя предыдущие версии.

Нововведение — модель перед началом рассуждений дает краткое описание подхода, и пользователь может в любой момент вмешаться, скорректировать направление.

Если кратко охарактеризовать значение GPT-5.5 одним предложением: предыдущие модели — это набор возможностей, а GPT-5.5 — ближе к рабочей системе, которая умеет планировать, проверять и постоянно продвигать работу вперед.

01 84,9% задач — уровень профессионала

Сравнение GPT-5.5 с конкурентами по ключевым бенчмаркам Terminal-Bench 2.0, GDPval, OSWorld-Verified

Начнем с оценки в реальных профессиональных сценариях. OpenAI использовала бенчмарк под названием «GDPval», который требует выполнения полного набора профессиональных задач. Тест охватывает 44 сценария, включая финансовое моделирование, юридический анализ, отчеты по Data Science, операционное планирование и др.

Результаты показывают: GPT-5.5 достигла или превзошла уровень профессионалов в 84,9% задач. Для сравнения, GPT-5.4 — 83,0%, Claude Opus 4.7 — 80,3%, Gemini 3.1 Pro — всего 67,3%.

Разница заметна не только по итогам. В задачах моделирования таблиц GPT-5.5 внутри тестирования показала 88,5%; в моделировании на уровне инвестиционного банка — тоже лидирует. Обратная связь ранних тестировщиков едина: ответы GPT-5.5 Pro по полноте, структуре и практической ценности заметно превосходят GPT-5.4 Pro, особенно в бизнесе, праве, образовании и Data Science.

Глядя только на цифры, можно устать. OpenAI на этот раз прямо показала внутренние процессы.

Компания заявила, что более 85% сотрудников используют Codex еженедельно, в том числе в финансах, коммуникациях, маркетинге, продукте и Data Science. Команда по коммуникациям использовала его для анализа шести месяцев данных о выступлениях и создала автоматизированный процесс их сегментации; финансовая команда проверила 24 771 форму K-1 на 71 637 страниц — на две недели раньше запланированного срока; команда по развитию рынка автоматизировала подготовку еженедельных отчетов, экономя каждому по 5-10 часов в неделю.

Это уже не демонстрация из лаборатории, а часть рабочего процесса.

02 Самая мощная модель для самостоятельного программирования

OpenAI утверждает, что GPT-5.5 — их самая сильная модель для автономного программирования.

На Terminal-Bench 2.0 (тест сложных командных рабочих потоков, требующих планирования, итераций и координации инструментов) GPT-5.5 набрала 82,7%, по сравнению с 75,1% GPT-5.4, что почти на 8 пунктов выше, при меньшем расходе токенов. В SWE-Bench Pro (оценка способности решать реальные задачи на GitHub за один раз) GPT-5.5 — 58,6%. В внутреннем тесте Expert-SWE (долгосрочные программные задачи, среднее время выполнения — около 20 часов) GPT-5.5 также превосходит GPT-5.4.

Диаграммы Terminal-Bench 2.0 и Expert-SWE

Под управлением GPT-5.5 Codex уже способен из одного подсказки полностью реализовать весь цикл разработки — от генерации кода, тестирования функций до визуальной отладки.

Показательные примеры OpenAI демонстрируют, что космическая миссия, построенная на реальных данных NASA, поддерживает 3D-интерактивное управление, моделирование орбит с физической точностью; сейсмограф подключен к реальному источнику данных и визуализирует результаты, что свидетельствует о полном вызове внешних API, обработке динамических данных и реальном рендеринге.

Что касается обратной связи. Основатель и CEO Every Dan Shipper рассказал случай: он столкнулся с багом после запуска, исправлял несколько дней — и в конце концов пришлось привлечь лучшего инженера компании, чтобы переписать часть системы. После выхода GPT-5.5 он провел эксперимент — вернул модель в состояние с неисправным багом и спросил, сможет ли она сама придумать решение, аналогичное инженеру. GPT-5.4 этого сделать не смогла, GPT-5.5 — смогла. Он отметил: «Это первый программирующий модель, у которой я вижу четкое понимание концепции».

Более прямо оценил инженер NVIDIA: «Потерять доступ к GPT-5.5 — как ампутировать руку».

Соучредитель и CEO Cursor Michael Truell добавил: GPT-5.5 умнее и устойчивее GPT-5.4, в сложных длительных задачах может работать дольше без преждевременной остановки — а это именно то, что нужно в инженерной работе.

03 Знаниевая работа: ИИ впервые реально умеет «использовать» компьютер

В тесте OSWorld-Verified (проверка способности модели самостоятельно управлять реальной компьютерной средой) GPT-5.5 достигла 78,7%, превзойдя GPT-5.4 (75,0%) и Claude Opus 4.7 (78,0%).

Это не просто скриншоты или анализ, а реальное управление экраном: просмотр интерфейса, клики, ввод данных, переключение между инструментами — до завершения задачи. GPT-5.5 впервые показывает, что ИИ может реально работать с компьютером вместе с человеком.

Демонстрационное видео моделирования финансового анализа

В тесте Tau2-bench для рабочих потоков в телекоммуникациях без подсказок точность достигла 98,0%, у GPT-5.4 — 92,8%.

Это говорит о глубоком понимании задачи без необходимости тщательно подбирать подсказки, что важно для сложных многошаговых диалогов.

Возможности поиска информации у GPT-5.5 в тесте BrowseComp составили 84,4%, у GPT-5.5 Pro — 90,1%, что показывает сильные способности к постоянному поиску и объединению информации при исследованиях, требующих работы с несколькими источниками.

04 Научные исследования: помощь в открытии новых математических доказательств

На этом релизе GPT-5.5 показывает, возможно, самое удивительное — в научной сфере.

Ранее мы рассматривали ИИ как вспомогательный инструмент для поиска литературы, написания кода, обработки данных. Теперь его роль явно вышла на передний план: он участвует в более сложных этапах — в сложных рассуждениях и даже в открытии новых теорем.

На GeneBench (оценка анализа данных в генетике и количественной биологии) GPT-5.5 набрала 25,0%, GPT-5.4 — 19,0%. Эти задачи обычно требуют нескольких дней работы эксперта, а модель должна в условиях минимального контроля делать выводы о возможных ошибках данных, скрытых факторах и правильно применять современные статистические методы.

Графики показывают, что с увеличением количества токенов результат GPT-5.5 растет быстрее, чем у GPT-5.4, и при примерно 15 000 токенов заметно заметное расхождение — это означает, что при выполнении длинных задач, требующих глубокого рассуждения, преимущества GPT-5.5 будут усиливаться.

На BixBench (база данных реальных биоинформатических задач) GPT-5.5 набрала 80,5%, опередив GPT-5.4 (74,0%) и заняв лидирующие позиции среди моделей с опубликованными результатами.

Особое внимание привлекает конкретный пример: внутренняя версия GPT-5.5 с пользовательским фреймворком помогла обнаружить новое математическое доказательство числа Рамзи, которое было подтверждено в формализующем инструменте Lean. Число Рамзи — важнейшая тема в комбинаторике, и такие результаты встречаются крайне редко, их сложность очень высока. Это не просто код или объяснение, а реальный вклад в математическую теорию.

На практике также есть убедительные примеры. Профессор иммунологии из Jackson Laboratory Derya Unutmaz использовал GPT-5.5 Pro для анализа набора данных с 62 образцами и почти 28 000 генов, создал подробный отчет и выделил ключевые находки и вопросы — обычно такую работу выполняют командами за несколько месяцев.

Ассистент профессора математики из Университета Адама Мицкевича в Познани Bartosz Naskręcki, всего лишь с одним подсказом, за 11 минут с помощью Codex на базе GPT-5.5 создал приложение для алгебраической геометрии, визуализирующее пересечение двух квадратичных поверхностей и преобразующее полученную кривую в модель Вейерштрасса. Коэффициенты уравнений отображаются в реальном времени и могут быть использованы для дальнейших исследований — весь процесс полностью автоматизирован моделью.

Скриншот приложения для алгебраической геометрии, созданного профессором Naskręcki — визуализация пересечения квадратичных поверхностей и интерфейс для расчетов уравнений Вейерштрасса.

Соучредитель и CEO компании Axiom Bio Brandon White выразил более прямую оценку: «Если OpenAI сохранит этот темп, то в конце года произойдет революция в области открытия лекарств».

05 Эффективность рассуждений: ИИ впервые помог себе оптимизировать инфраструктуру

В этом релизе есть важный, но легко пропускаемый аспект — он может стать самым значительным технологическим прорывом.

GPT-5.5 — более крупная и мощная модель, но задержка за токен у нее на уровне GPT-5.4. Для сохранения высокой производительности при большей мощности OpenAI полностью переработала систему рассуждений — и Codex, и GPT-5.5 участвовали в этой оптимизации.

На графике Artificial Analysis (интеллектуальный индекс) видно, что по оси X — суммарное количество выводимых токенов (по логарифмической шкале), по оси Y — общий показатель интеллекта. Кривая GPT-5.5 не только превосходит GPT-5.4, Claude Opus 4.7 и Gemini 3.1 Pro Preview по уровню, но и достигает тех же результатов при меньшем расходе токенов — что говорит о повышенной эффективности и меньших затратах.

График искусственного анализа

Конкретная задача — балансировка нагрузки: ранее запросы делились на фиксированные блоки для равномерной загрузки GPU, но статическая сегментация не была оптимальной для всех типов трафика. Codex проанализировал данные за несколько недель и создал собственный эвристический алгоритм, увеличивший скорость генерации токенов более чем на 20%.

GPT-5.5 совместно с системами NVIDIA GB200 и GB300 NVL72 — это совместное проектирование, обучение и развертывание. Иными словами, эта модель участвовала в оптимизации собственной инфраструктуры — это не метафора, а буквальный факт «ИИ улучшил свою собственную систему».

06 Кибербезопасность: повышение возможностей и ужесточение контроля

GPT-5.5 явно улучшила свои показатели в области кибербезопасности. В тесте CyberGym GPT-5.5 набрала 81,8%, GPT-5.4 — 79,0%, Claude Opus 4.7 — 73,1%. В внутреннем соревновании «Capture the Flag» (CTF) GPT-5.5 — 88,1%, GPT-5.4 — 83,7%.

Диаграммы CyberGym и CTF

OpenAI оценило уровень кибербезопасности и биохимических возможностей GPT-5.5 как «высокий» в рамках системы экстренной подготовки, но не достиг «критического» уровня. Также отмечается, что новые более строгие системы оценки рисков «могут сначала вызвать неудобства у некоторых пользователей», и их доработки продолжаются.

Для балансировки защиты и доступа OpenAI запустила программу «Доверенный доступ к кибербезопасности»: квалифицированные исследователи и ключевые защитники инфраструктуры могут подать заявку на расширенные права, чтобы с меньшими препятствиями использовать расширенные возможности.

Обоснование — такие способности, как кибербезопасность и биотехнологии, практически неотъемлемо распространяются. Вместо попыток полностью ограничить доступ, лучше дать тем, кто занимается защитой, возможность использовать самые передовые инструменты. Короче говоря, вопрос не в «открывать или нет», а в «кому дать».

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить