Microsoft представила Critique — новую систему многомодельных глубоких исследований в M365 Copilot

2026-04-06 06:03:48

Кратко

Microsoft представила Critique — новую систему глубоких исследований с несколькими моделями внутри Researcher, агента глубоких исследований в Microsoft 365 Copilot, — в рамках более широкой инициативы сделать Copilot более надежным для серьезной работы со знаниями, а не просто быстрым черновиком.

По словам Microsoft, Critique предназначена для сложных задач исследований и работает, разделяя работу на две части: одна модель отвечает за планирование, поиск, синтез и подготовку черновика, а вторая модель проверяет и дорабатывает результат до того, как будет сформирован итоговый отчет. Microsoft заявляет, что система использует модели передовых лабораторий, включая OpenAI и Anthropic, и что она доступна уже сейчас через программу Frontier компании

Reuters сообщило, что в текущей настройке Critique OpenAI’s GPT генерирует ответ, а Anthropic’s Claude проверяет его на точность и качество, прежде чем ответ попадет к пользователю. Microsoft также заявляла, что хочет сделать этот процесс двунаправленным позже, чтобы модели могли проверять друг друга в обоих направлениях

Что именно делает Critique внутри Microsoft 365 Copilot

Собственное описание Microsoft ясно дает понять, что Critique — это не просто косметическая функция или новая кнопка, бездумно добавленная в Copilot. Он работает внутри Researcher в Microsoft 365 Copilot и создан для более глубоких задач, где важность «сделать правильно» равна важности «сделать быстро». Одна модель выполняет «раскопки» и готовит отчет, а вторая подключается, как редактор: проверяет факты, оттачивает структуру и помогает превратить это в более надежный итоговый материал.

Microsoft говорит, что вся идея в том, чтобы разделить генерацию и оценку, а не просить одну модель одновременно придумывать, писать, проверять факты и полировать собственную работу. Это различие важно, потому что многие сбои ИИ происходят именно из-за этого «узкого места» одной модели. Когда одной системе поручают все, она может выдать что-то, выглядящее отполированным, при этом незаметно упуская пробелы, выходя за рамки в утверждениях или опираясь на слабые доказательства

Microsoft говорит, что проверочный слой Critique построен на оценке по рубрикам с вниманием к надежности источников, полноте отчета и строгому закреплению доказательств. Если говорить простыми словами, вторая модель должна выяснить, действительно ли черновик отвечал на поставленный вопрос, насколько надежна исходная привязка, и подкрепляется ли итоговое повествование доказательствами, а не просто звучит уверенно

Microsoft не продвигает Critique как побочный эксперимент

Один из самых важных моментов в объявлении Microsoft заключается в том, что Critique станет поведением по умолчанию в Researcher, когда в подборе модели выбран Auto. Это сигнализирует о том, что компания рассматривает это как нечто большее, чем опциональная лабораторная функция для продвинутых пользователей. Фактически компания рассматривает много-модельную проверку как новую базовую норму для качества глубоких исследований внутри Microsoft 365 Copilot. Это важный выбор продукта, потому что он указывает: Microsoft считает, что корпоративным клиентам меньше важна сырьeвая скорость ответа, чем меньшее число галлюцинаций, более сильная структура и больше уверенности в готовом отчете

Это также хорошо согласуется с более широкими сообщениями Microsoft о Wave 3 для Microsoft 365 Copilot, где компания продвигает идею Copilot как «системы для работы», основанной на преимуществе нескольких моделей, а не на любой одной AI-лаборатории. В формулировке Microsoft Copilot должен извлекать лучшие доступные знания из отрасли, опираясь на контекст работы через то, что она называет Work IQ, и защищая их средствами корпоративного контроля данных. Critique — один из самых наглядных примеров того, как эта стратегия переходит от маркетингового языка к заметной функции продукта

Цифры бенчмарка — важная часть продажного питча Microsoft

Microsoft не только говорит, что Critique воспринимается лучше. Она утверждает, что система показала лучшие результаты на формальном бенчмарке. В техническом описании компания говорит, что тестировала Critique на бенчмарке DRACO — сокращение от Deep Research Accuracy, Completeness, and Objectivity (точность, полнота и объективность глубоких исследований), — который включает 100 сложных исследовательских задач в 10 доменах. Microsoft утверждает, что ответы оценивались по фактической точности, широте и глубине анализа, качеству представления и качеству цитирования, и что Critique обошла версию Researcher с одной моделью по всем четырем показателям

Компания отметила самые большие улучшения по широте и глубине анализа, затем по качеству представления и фактической точности. Также она говорит, что улучшения были статистически значимыми, и что Researcher с Critique обеспечил агрегированный прирост на +7,0 пункта, или +13,88% по сравнению с Perplexity Deep Research (модель Claude Opus 4.6), которую Microsoft описала как лучшую систему, указанную в статье о бенчмарке

Data | Source: Microsoft

Это бросающееся в глаза утверждение, особенно потому, что гонка за глубокие исследования стала одной из самых конкурентных линий в корпоративном ИИ. Исследовательские инструменты больше не оцениваются только тем, могут ли они собрать информацию; теперь их оценивают по тому, могут ли они собрать отчет, который выглядит готовым для принятия решений

Аргумент Microsoft в том, что проверочный слой заставляет исследователей выявлять недостающие углы, уплотнять организацию, оспаривать слабые утверждения и аккуратнее использовать цитаты. То, испытают ли клиенты эти выгоды в реальных рабочих процессах, будет важнее, чем графики бенчмарков, но Microsoft явно пытается показать, что это измеримый скачок качества, а не расплывчатое обновление модели

Council показывает, что Microsoft думает дальше, чем про «единственно правильный ответ»

Critique — не единственная функция, которую Microsoft представила вместе с этим обновлением. Компания также запустила Council — режим сравнения с несколькими моделями внутри Researcher. Microsoft говорит, что Council одновременно запускает модели Anthropic и OpenAI, позволяя каждой из них сгенерировать полный самостоятельный отчет. Затем отдельная судейская модель создает сжатое резюме, показывающее, где отчеты согласуются, где расходятся и что каждый из них уникально добавляет. Поддержка Microsoft описывает это как Model Council — режим, который сохраняет оба полных отчета и добавляет сводку сравнения, чтобы помочь пользователям решить, какой вывод сильнее, или как их объединить

Это очень интересный сигнал о том, куда может двигаться корпоративный ИИ. Некоторое время отрасль вела себя так, будто цель — найти одну модель, которая сможет заменить все остальные. Последний шаг Microsoft предполагает, что более реалистичное будущее может быть таким, где компании не доверяют ни одной единственной модели настолько, чтобы сделать ее единственным «голосом в комнате»

Время появления Critique не случайно. Microsoft испытывает давление, чтобы показать, что Microsoft 365 Copilot становится более полезным, более дифференцированным и более ценным, по мере того как конкуренция усиливается

Reuters связало запуск Critique и Council с усилиями Microsoft по повышению принятия Copilot в рынке, где конкуренты, включая продукты Google’s Gemini и Anthropic’s Claude, активно продвигаются в корпоративный ИИ. Axios также отметил, что у много-модельной стратегии Microsoft есть еще одно преимущество: она показывает, что компания не зафиксирована на избыточной зависимости от OpenAI в момент, когда лидерство frontier-моделей может быстро смещаться

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .