Inception Labs запускает Mercury 2, модель рассуждений на основе диффузии, достигающую более 1000 токенов в секунду

Кратко

Inception Labs запустила Mercury 2 — модель диффузионного типа для рассуждений, способную генерировать более 1000 токенов в секунду, что в три раза быстрее аналогичных моделей.

Inception Labs Unveils Mercury 2: A Diffusion-Based LLM Delivering Over 1,000 Tokens Per Second For Low-Latency AI Applications

Inception Labs, стартап в области искусственного интеллекта, представила Mercury 2 — крупномасштабную модель языка на основе диффузии, разработанную для значительного ускорения задач рассуждения в производственных AI-приложениях.

В отличие от традиционных автогрессивных моделей, которые генерируют текст последовательно, Mercury 2 использует параллельный процесс уточнения, производя несколько токенов одновременно и сходясь за небольшое число шагов, что позволяет достигать скорости более 1000 токенов в секунду на GPU NVIDIA Blackwell — примерно в три раза быстрее конкурентов в той же ценовой категории.

Модель оптимизирована для работы в реальном времени в сложных AI-цепочках, где задержки накапливаются при множественных вызовах инференса, извлечении данных и циклах агентных систем. Mercury 2 сохраняет высокое качество рассуждений при снижении задержек, что позволяет разработчикам, системам голосового AI, поисковым движкам и другим интерактивным приложениям работать на уровне рассуждений без задержек, характерных для последовательной генерации. Она поддерживает такие функции, как настраиваемое рассуждение, окна контекста до 128K токенов, вывод JSON, соответствующий схеме, и интеграцию с нативными инструментами, что обеспечивает гибкость для различных производственных решений.

Mercury 2 обеспечивает низкую задержку AI в рабочих процессах кодирования, голоса и поиска

В отчёте выделены несколько сценариев использования, где критически важна низкая задержка при рассуждениях. В рабочих процессах кодирования и редактирования Mercury 2 обеспечивает быстрый автодополнение и предложения по следующему редактированию, плавно интегрируясь с мышлением разработчиков. В агентных сценариях модель позволяет выполнять больше шагов инференса без превышения лимитов по задержкам, повышая качество и глубину автоматизированных решений. Голосовые AI и интерактивные приложения выигрывают от способности генерировать ответы высокого качества в естественной речи, улучшая пользовательский опыт в реальных диалогах. Кроме того, Mercury 2 поддерживает многоступенчатые поисковые и извлекающие цепочки, позволяя быстро подытоживать, переранжировать и рассуждать без потери скорости отклика.

Ранние пользователи отметили значительное повышение пропускной способности и улучшение пользовательского опыта. Mercury 2 считается как минимум вдвое быстрее GPT-5.2 при сохранении конкурентного качества, применяясь для реального времени обработки транскриптов, интерактивных интерфейсов человек-компьютер, автономной оптимизации рекламы и голосовых AI-аватаров.

Модель совместима с API OpenAI, что позволяет интегрировать её в существующие системы без значительных изменений, а Inception Labs предоставляет поддержку для корпоративных оценок, проверки производительности и руководства по развертыванию в конкретных рабочих нагрузках. Mercury 2 представляет собой шаг вперёд в области диффузионных LLM, переопределяя баланс между качеством рассуждений и задержками в производственных AI-средах.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить