Исследователи утверждают, что тревожные выводы Anthropic о мифах были воспроизведены с помощью готового ИИ

Вкратце

  • Исследователи показывают, что эксплойты в стиле Anthropic можно воспроизвести с помощью публичных ИИ, утверждают в отчёте.
  • Исследование предполагает, что обнаружение уязвимостей уже стало дешевым и широко доступным.
  • Результаты указывают на то, что киберспособности ИИ могут распространяться быстрее, чем ожидалось.

Когда Anthropic представила Claude Mythos в начале этого месяца, она закрыла модель за проверенной коалицией технологических гигантов и охарактеризовала её как слишком опасную для публики. Министр казначейства Скотт Бессент и председатель ФРС Джером Пауэлл созвали чрезвычайное совещание с руководителями Уолл-стрит. Слово “vulnpocalypse” вновь появилось в кругах безопасности. А теперь команда исследователей ещё больше усложнила эту историю. Vidoc Security взяла собственные исправленные публичные примеры Anthropic и попыталась воспроизвести их с помощью GPT-5.4 и Claude Opus 4.6 внутри открытого исходного кода агента для программирования под названием opencode. Без приглашения Glasswing. Без приватного API. Без внутренней инфраструктуры Anthropic. “Мы воспроизвели выводы Mythos в opencode, используя публичные модели, а не внутренний стек Anthropic,” — написал Dawid Moczadło в X после публикации результатов. — “Лучшее понимание релиза Mythos Anthropic — это не ‘одна лаборатория обладает волшебной моделью’. Это: экономика обнаружения уязвимостей меняется.”

Мы воспроизвели выводы Mythos в opencode, используя публичные модели, а не внутренний стек Anthropic.

Защита переходит от доступа к модели к её валидации: обнаружение сигнала уязвимости становится дешевле; превращение его в доверенную безопасность

Лучшее понимание релиза Mythos Anthropic — это… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) 16 апреля 2026

Цели, на которые они нацелились, совпадали с теми, что выделяла сама Anthropic в своих публичных материалах: протокол обмена файлами на сервере, сетевой стек операционной системы, программное обеспечение для обработки видео, встроенное почти во все медиа-платформы, и две криптографические библиотеки, используемые для проверки цифровых идентификаторов в интернете. И GPT-5.4, и Claude Opus 4.6 воспроизвели по два случая уязвимостей во всех трёх запусках. Claude Opus 4.6 также независимо трижды обнаружил ошибку в OpenBSD, в то время как GPT-5.4 набрал ноль по этому поводу. Некоторые уязвимости (одна involving библиотеку FFmpeg для воспроизведения видео и другая, связанная с обработкой цифровых подписей с wolfSSL), оказались частичными — модели нашли правильную область кода, но не определили точную причину.

Изображение: Vidoc Security

Каждое сканирование оставалось ниже $30 за файл, что означало, что исследователи смогли обнаружить те же уязвимости, что и Anthropic, затратив при этом меньше, чем $30 на это.

“Модели ИИ уже достаточно хороши, чтобы сузить пространство поиска, выявить реальные зацепки и иногда полностью восстановить коренную причину в проверенном коде,” — сказал Moczadło в X. Используемый ими рабочий процесс не был однократным запросом. Он отражал то, что сама Anthropic описывала публично: дать модели кодовую базу, позволить ей исследовать, параллелить попытки, фильтровать по сигналу. Команда Vidoc создала ту же архитектуру с помощью открытых инструментов. Планировочный агент разбивал каждый файл на части. Отдельный обнаруживающий агент запускался на каждой части, затем проверял другие файлы в репозитории, чтобы подтвердить или опровергнуть находки. Диапазоны строк внутри каждого запроса на обнаружение — например, “сфокусироваться на строках 1158-1215” — выбирались не вручную исследователями. Это были результаты предыдущего этапа планирования. В блоге это явно указано: “Мы хотим быть ясными в этом, потому что стратегия разбиения формирует то, что видит каждый обнаруживающий агент, и мы не хотим представлять рабочий процесс как более ручной, чем он есть.” Исследование не утверждает, что публичные модели совпадают с Mythos во всём. Модель Anthropic пошла дальше, чем просто обнаружение ошибки в FreeBSD — она создала рабочий план атаки, выяснив, как злоумышленник может связать фрагменты кода через несколько сетевых пакетов, чтобы полностью захватить управление машиной удалённо. Модели Vidoc нашли уязвимость. Они не создали оружие. Вот где лежит реальный разрыв: не в обнаружении дыры, а в знании, как именно пройти через неё. Но аргумент Moczadło не в том, что публичные модели такие же мощные. Он в том, что дорогая часть рабочего процесса теперь доступна любому с API-ключом: “Защита переходит от доступа к модели к её валидации: обнаружение сигнала уязвимости становится дешевле; превращение его в доверенную безопасность всё ещё сложно.” Отчёт по безопасности Anthropic признал, что Cybench, эталон, используемый для оценки, представляет ли модель серьёзный киберриск, “больше не достаточно информативен для современных моделей”, поскольку Mythos прошёл его полностью. В лаборатории оценили, что сопоставимые возможности распространится из других ИИ-лабораторий в течение шести-18 месяцев. Исследование Vidoc показывает, что сторона обнаружения уже доступна вне любой закрытой программы. Их полные примеры запросов, выводы моделей и приложение методологии опубликованы на официальном сайте лаборатории.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить