Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Ежечасно миллионы ошибок, расследование раскрывает «иллюзию точности» поиска Google AI
Автор: Клод, Deep Tide TechFlow
Обзор Deep Tide: Последние тесты совместной AI-стартапа Oumi и The New York Times показывают, что точность функции AI-обобщений поиска Google (AI Overviews) составляет около 91%, но при объеме обработки 5 триллионов поисковых запросов в год это означает, что каждый час генерируется десятки миллионов ошибочных ответов. Более того, даже при правильных ответах более половины цитируемых ссылок не подтверждают сделанные выводы.
Google распространяет на пользователей информацию с ошибками в масштабах, ранее недостижимых, и большинство из них этого даже не осознает.
По данным The New York Times, AI-стартап Oumi по заказу провел оценку точности функции AI Overviews, используя стандартный отраслевой тест SimpleQA, разработанный OpenAI. Тест охватил 4326 поисковых запросов, проведенных в октябре прошлого года (под управлением Gemini 2) и в феврале этого года (после обновления до Gemini 3). Результаты показали, что точность Gemini 2 составляет около 85%, а Gemini 3 повысилась до 91%.
91% звучит неплохо, но при масштабах Google это совсем другое дело. Google обрабатывает около 5 триллионов запросов в год, при ошибке в 9% это означает, что AI Overviews каждые час будут выдавать более 57 миллионов неточных ответов, а за минуту — почти миллион.
Ответ правильный, источник — нет
Более тревожной, чем показатель точности, является проблема «отрыва» цитируемых источников от контекста.
Данные Oumi показывают, что в эпоху Gemini 2 у 37% правильных ответов есть проблема «беспричинных цитат», то есть ссылки, приложенные к AI-обобщениям, не подтверждают предоставленную информацию. После обновления до Gemini 3 эта доля выросла до 56%. Иными словами, модель все реже «сдает работу» полностью.
Генеральный директор Oumi Манос Куккумидис прямо указывает на суть: «Даже если ответ правильный, как вы можете быть уверены, что он правильный? Как его проверить?»
Множество цитирований низкокачественных источников в AI Overviews усугубляют проблему. Oumi обнаружила, что Facebook и Reddit являются вторым и четвертым по популярности источником цитирования. В неточных ответах Facebook цитируется в 7% случаев, что выше, чем в точных ответах — 5%.
Фейковая статья BBC за 24 часа «заражает» систему
Еще один серьезный недостаток AI Overviews — их легкая уязвимость к манипуляциям.
Один из журналистов BBC протестировал систему, создав фальшивую статью, и менее чем за 24 часа Google AI-обобщения начали распространять ложную информацию как факт.
Это означает, что любой, кто понимает, как работает система, может публиковать фальшивый контент и повышать его популярность, «заражая» результаты поиска. Представитель Google Нэд Адрианс заявил, что функция поиска на базе AI строится на тех же механизмах ранжирования и безопасности, что и фильтрация спама, и большинство тестовых случаев — это нерелевантные запросы, которые пользователи вряд ли будут искать.
Google опровергает: тесты сами по себе проблематичны
Google выразил несколько претензий к исследованию Oumi. Представитель заявил, что в нем «существенные уязвимости», в том числе: сам тест SimpleQA содержит неточности; Oumi использует собственную модель AI HallOumi для оценки другой модели AI, что может вводить дополнительные ошибки; содержимое теста не отражает реальные поисковые сценарии пользователей.
Внутренние тесты Google также показывают, что при автономной работе Gemini 3 вне поисковой системы Google доля ложных выводов достигает 28%. Однако Google подчеркивает, что AI Overviews использует систему ранжирования для повышения точности, и в целом показывает лучшие результаты, чем сама модель.
Тем не менее, как отмечает PCMag, существует логическая парадоксальность: если ваше оправдание — «отметить, что наши отчеты о неточностях AI используют тот же, возможно, неточный AI», то это вряд ли повысит доверие пользователей к точности вашего продукта.