Ежечасно миллионы ошибок, расследование раскрывает «иллюзию точности» поиска Google AI

DeepFlowTech · 2026-04-10T12:21:32+00:00

«Нью-Йорк Таймс» и тестирование стартапа AI Oumi показали, что точность функции AI-суммирования Google составляет 91%, но из-за огромного объема создается десятки миллионов ошибочных ответов в час. Кроме того, более половины правильных ответов не имеют надежных источников цитирования, а системы AI легко поддаются манипуляциям, что приводит к распространению ложной информации. Несмотря на то, что Google оспаривает эффективность тестирования, пользователи должны оставаться бдительными в отношении точности информации.

DeepFlowTech

2026-04-10 12:21:32

Генерация тезисов в процессе

Автор: Клод, Deep Tide TechFlow

Обзор Deep Tide: Последние тесты совместной AI-стартапа Oumi и The New York Times показывают, что точность функции AI-обобщений поиска Google (AI Overviews) составляет около 91%, но при объеме обработки 5 триллионов поисковых запросов в год это означает, что каждый час генерируется десятки миллионов ошибочных ответов. Более того, даже при правильных ответах более половины цитируемых ссылок не подтверждают сделанные выводы.

Google распространяет на пользователей информацию с ошибками в масштабах, ранее недостижимых, и большинство из них этого даже не осознает.

По данным The New York Times, AI-стартап Oumi по заказу провел оценку точности функции AI Overviews, используя стандартный отраслевой тест SimpleQA, разработанный OpenAI. Тест охватил 4326 поисковых запросов, проведенных в октябре прошлого года (под управлением Gemini 2) и в феврале этого года (после обновления до Gemini 3). Результаты показали, что точность Gemini 2 составляет около 85%, а Gemini 3 повысилась до 91%.

91% звучит неплохо, но при масштабах Google это совсем другое дело. Google обрабатывает около 5 триллионов запросов в год, при ошибке в 9% это означает, что AI Overviews каждые час будут выдавать более 57 миллионов неточных ответов, а за минуту — почти миллион.

Ответ правильный, источник — нет

Более тревожной, чем показатель точности, является проблема «отрыва» цитируемых источников от контекста.

Данные Oumi показывают, что в эпоху Gemini 2 у 37% правильных ответов есть проблема «беспричинных цитат», то есть ссылки, приложенные к AI-обобщениям, не подтверждают предоставленную информацию. После обновления до Gemini 3 эта доля выросла до 56%. Иными словами, модель все реже «сдает работу» полностью.

Генеральный директор Oumi Манос Куккумидис прямо указывает на суть: «Даже если ответ правильный, как вы можете быть уверены, что он правильный? Как его проверить?»

Множество цитирований низкокачественных источников в AI Overviews усугубляют проблему. Oumi обнаружила, что Facebook и Reddit являются вторым и четвертым по популярности источником цитирования. В неточных ответах Facebook цитируется в 7% случаев, что выше, чем в точных ответах — 5%.

Фейковая статья BBC за 24 часа «заражает» систему

Еще один серьезный недостаток AI Overviews — их легкая уязвимость к манипуляциям.

Один из журналистов BBC протестировал систему, создав фальшивую статью, и менее чем за 24 часа Google AI-обобщения начали распространять ложную информацию как факт.

Это означает, что любой, кто понимает, как работает система, может публиковать фальшивый контент и повышать его популярность, «заражая» результаты поиска. Представитель Google Нэд Адрианс заявил, что функция поиска на базе AI строится на тех же механизмах ранжирования и безопасности, что и фильтрация спама, и большинство тестовых случаев — это нерелевантные запросы, которые пользователи вряд ли будут искать.

Google опровергает: тесты сами по себе проблематичны

Google выразил несколько претензий к исследованию Oumi. Представитель заявил, что в нем «существенные уязвимости», в том числе: сам тест SimpleQA содержит неточности; Oumi использует собственную модель AI HallOumi для оценки другой модели AI, что может вводить дополнительные ошибки; содержимое теста не отражает реальные поисковые сценарии пользователей.

Внутренние тесты Google также показывают, что при автономной работе Gemini 3 вне поисковой системы Google доля ложных выводов достигает 28%. Однако Google подчеркивает, что AI Overviews использует систему ранжирования для повышения точности, и в целом показывает лучшие результаты, чем сама модель.

Тем не менее, как отмечает PCMag, существует логическая парадоксальность: если ваше оправдание — «отметить, что наши отчеты о неточностях AI используют тот же, возможно, неточный AI», то это вряд ли повысит доверие пользователей к точности вашего продукта.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков