Microsoft представила Critique — нову багатомодельну систему глибоких досліджень у M365 Copilot

2026-04-06 06:03:48

Коротко

Microsoft представила Critique — нову багатомодельну систему глибоких досліджень усередині Researcher, агента глибоких досліджень у Microsoft 365 Copilot — у межах ширшого поштовху, щоб зробити Copilot відчутно надійнішим для серйозної роботи зі знаннями, а не лише для швидкого чернетування.

За словами Microsoft, Critique розроблена для складних дослідницьких завдань і працює, розбиваючи роботу на дві частини: одна модель обробляє планування, пошук, синтез і чернетку, тоді як друга модель переглядає та вдосконалює результат перед тим, як буде створено фінальний звіт. Microsoft каже, що в системі використовуються моделі з frontier labs, зокрема OpenAI та Anthropic, і що вона вже доступна через програму Frontier компанії

Reuters повідомляє, що в поточній конфігурації Critique OpenAI’s GPT генерує відповідь, а Anthropic’s Claude перевіряє її на точність і якість, перш ніж відповідь дістанеться користувача. Microsoft також заявляла, що хоче зробити цей робочий процес двонапрямним пізніше, дозволяючи моделям перевіряти одна одну в обох напрямах

Що саме робить Critique всередині Microsoft 365 Copilot

Власний опис Microsoft чітко показує, що Critique — це не просто косметична функція або нова кнопка, яку просто «приклеїли» до Copilot. Вона працює всередині Researcher у Microsoft 365 Copilot і створена для глибших завдань, де важливо зробити правильно так само, як і зробити швидко. Одна модель проводить «розкопки» й складає звіт, тоді як друга підключається як редактор: перевіряє факти, загострює структуру та допомагає перетворити це на більш надійний фінальний матеріал.

Microsoft каже, що вся ідея полягає в тому, щоб відокремити генерацію від оцінювання, а не просити одну модель вигадувати, писати, перевіряти факти й полірувати власну роботу все одночасно. Ця різниця має значення, тому що значна частина збоїв ШІ походить саме від такого вузького місця «одна модель на все». Коли одному й тому самому системі доручають зробити все, вона може видати щось, що виглядає відполірованим, але тихо пропустити прогалини, виходити за межі тверджень або спиратися на слабкі докази

Microsoft каже, що рівень перевірки Critique побудований навколо оцінювання за рубриками (rubric-based evaluation) з увагою до надійності джерел, повноти звіту та суворого прив’язування до доказів. Простими словами: друга модель має поставити питання, чи чернетка насправді відповіла на запитання, чи підкріплене джерельне наповнення є надійним, і чи фінальний наратив підтверджений, а не просто звучить упевнено

Microsoft не продає Critique як побічний експеримент

Одна з найважливіших деталей в оголошенні Microsoft полягає в тому, що Critique буде типовим (default) досвідом у Researcher, коли в селекторі моделей обрано Auto. Це сигналізує, що компанія розглядає це як більше, ніж опціональна «лабораторна» функція для досвідчених користувачів. Фактично, вона сприймає багатомодельну перевірку як новий базовий стандарт якості глибоких досліджень у Microsoft 365 Copilot. Це суттєвий вибір продукту, бо підказує: Microsoft вважає, що корпоративні клієнти менше дбають про сирy швидкість відповіді, ніж про меншу кількість галюцинацій, сильнішу структуру та більшу впевненість у готовому звіті

Це також логічно вписується в ширший меседж Microsoft щодо Wave 3 Microsoft 365 Copilot, де компанія просувала ідею Copilot як «системи для роботи», побудованої на перевазі багатьох моделей, а не на основі будь-якої однієї AI-лабораторії. У формулюванні Microsoft Copilot має витягувати найкращий доступний інтелект із усього індустріального ландшафту, спираючись на контекст роботи через те, що вона називає Work IQ, і захищений контролями даних для підприємств. Critique — один із найчіткіших прикладів цієї стратегії: перехід від маркетингової риторики до видимої функції продукту

Цифри бенчмарка — значна частина торгового аргументу Microsoft

Microsoft не лише каже, що Critique відчувається краще. Вона також стверджує, що система працювала краще на формальному бенчмарку. У своєму технічному викладі компанія говорить, що вона тестувала Critique на бенчмарку DRACO — скорочення для Deep Research Accuracy, Completeness, and Objectivity — який охоплює 100 складних дослідницьких завдань у 10 доменах. Microsoft каже, що відповіді оцінювали за фактичною точністю, широтою та глибиною аналітики, якістю подання та якістю цитувань, і що Critique випередила версію Researcher з однією моделлю за всіма чотирма метриками

Компанія підкреслила найбільші прирости в широті та глибині аналітики, далі — якість подання та фактична точність. Вона також каже, що покращення були статистично значущими, і що Researcher із Critique дав +7.0 бала агрегованого покращення, або +13.88% проти Perplexity Deep Research (модель Claude Opus 4.6), яку Microsoft описала як найкращу систему, про яку повідомлялося в статті про бенчмарк

Data | Source: Microsoft

Це приваблива заява, особливо тому, що перегони в глибоких дослідженнях стали одним із найконкурентніших напрямів у корпоративному AI. Інструменти для досліджень більше не оцінюють лише за тим, чи вони можуть збирати інформацію, — їх оцінюють за тим, чи здатні скласти звіт, який виглядає готовим до ухвалення рішень

Аргумент Microsoft полягає в тому, що рівень перевірки змушує дослідників виявляти відсутні ракурси, підтягувати організацію, оскаржувати слабкі твердження й уважніше використовувати цитати. Те, чи відчують клієнти ці виграші в реальних робочих процесах, важитиме більше, ніж графіки бенчмарка, але Microsoft чітко намагається вказати, що це вимірюваний стрибок якості, а не розмите оновлення моделі

Council показує, що Microsoft мислить далі, ніж про один «найкращий варіант відповіді»

Critique — не єдина функція, яку Microsoft представила разом із цим оновленням. Компанія також запустила Council — режим багатомодельного порівняння всередині Researcher. Microsoft каже, що Council одночасно запускає моделі Anthropic і OpenAI, дозволяючи кожній з них згенерувати повний самостійний звіт. Окрема judge-модель тоді створює стислий підсумок, який показує, де звіти збігаються, де розходяться, і що кожна з моделей унікально додає. Microsoft Support описує це як Model Council — режим, який зберігає обидва повні звіти й додає порівняльне резюме, щоб допомогти користувачам вирішити, який результат сильніший, або як поєднати їх

Це дуже цікавий сигнал про те, куди може рухатися корпоративний AI. Певний час індустрія поводилася так, ніби ціль — знайти одну модель, яка зможе замінити всі інші. Останній крок Microsoft натякає, що більш реалістичне майбутнє може бути таким, де компанії не довіряють жодній одній моделі настільки, щоб зробити її єдиним голосом у кімнаті

Час появи Critique не є випадковим. Microsoft перебуває під тиском, щоб показати, що Microsoft 365 Copilot стає кориснішим, більш диференційованим і ціннішим, у міру того як конкуренція посилюється

Reuters пов’язало запуск Critique і Council із зусиллями Microsoft покращити поширення Copilot на ринку, де конкуренти, зокрема продукти Google’s Gemini та Anthropic’s Claude, активно просуваються в робочий AI. Axios також зазначив, що багатомодельна стратегія Microsoft має ще одну перевагу: вона показує, що компанія не «застрягла» в надмірній залежності від OpenAI у той момент, коли лідерство серед frontier-моделей може швидко змінюватися

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.