Профессор Уортонской школы бизнеса Пенсильванского университета Ethan Mollick в посте на платформе X от 25/4 сформулировал наблюдение, которое сильно потрясло академическое сообщество: современные AI-агенты уже способны независимо воспроизвести сложные результаты научных исследований без оригинальных статей и без исходного кода — лишь на основе общедоступного описания методов и данных. Дальше Mollick отметил, что когда версии, воспроизведённые этими AI, расходятся с исходной статьёй, «ошибки чаще всего возникают в самом человеческом тексте статьи, а не в AI». Это — реальный перелом в эпоху генеративного AI в вопросе воспроизводимости научных исследований: то, что раньше требовало дорогих человеческих усилий для взаимной проверки, теперь выполняется AI массово и с низкой стоимостью.
Claude воспроизвёл несколько статей, затем с помощью GPT-5 Pro сделал двойную верификацию
В своём блоге OneUsefulThing и в данном твите Mollick описал конкретный эксперимент с Claude: передал ему одну научную статью, попросив открыть архив, упорядочить файлы, автоматически преобразовать STATA-код для статистики в Python, а затем поочерёдно выполнить все выводы, изложенные в статье. Когда Claude справился, он затем с помощью GPT-5 Pro провёл вторую проверку тех же результатов воспроизведения. Несколько статей тестировались тем же способом; результаты в целом были успешными, а препятствия возникали лишь когда файлы данных оказывались слишком большими или когда сами исходные replication data были проблемными.
Для академического сообщества этот процесс обычно в прошлом требовал, чтобы исследовательские ассистенты тратили недели и даже месяцы. Масштаб времени, который описывает Mollick, — от полудня до одного дня, а стоимость вычислений сводится лишь к оплате токенов коммерческого LLM API.
Ошибки чаще в человеческом первоисточнике, а не в AI
Более спорным является вывод Mollick о том, «кто ошибается». В своём твите он прямо сказал, что когда результаты воспроизведения AI не совпадают с исходной статьёй, в большинстве случаев ошибается не AI, а оригинальная статья: там бывают ошибки обработки данных, неверное применение модели или выводы выходят за пределы того, что поддерживается данными. В психологии, поведенческой экономике, менеджменте и других социальных науках в последние десять лет уже неоднократно происходили серьёзные кризисы воспроизводимости; самый известный пример — крупное воспроизведение 2015 года от Open Science Collaboration, где результаты примерно 36% статей по психологии удалось независимо воспроизвести. AI-агент переводит этот этап проверки с границы «требует человеческого софинансирования» к границе «может быть повсеместно выполняемым».
Учёные всё ещё запрещают AI в рецензировании; институты отстают от технологий
В другом твите от 25/4 Mollick конкретно назвал крупнейшее в его сфере общество — Academy of Management — которое всё ещё официально запрещает AI входить в процесс рецензирования статей. Он сослался на уже существующие исследования, показывающие, что рецензирование с помощью AI по точности, согласованности и контролю предвзятости уже превосходит некоторых традиционных человеческих рецензентов; поэтому позиция «запретить» может, напротив, усилить неработоспособность уже существующих рецензирующих систем. Разрыв между такими институтами и технологией — это политический вопрос, с которым в ближайшие 1–2 года придётся столкнуться сфере академических публикаций, научным обществам и финансирующим организациям.
Для читателей эта дискуссия выходит за пределы академической среды. Когда AI-агенты способны в реальном времени проверять результаты исследований, академические обоснования в отрасли — в ссылках на исследования, в отчётах по политике и в финансовых решениях — перейдут к новому порогу проверки: «выдерживает ли заключение независимое воспроизведение AI». В дополнение к этому в другом твите Mollick отметил, что правительство — единственная структура, которая может заякорить рамку для этой проверки, когда сила инструментов продолжит расти; а сложность проектирования политики синхронно станет одной из относительно игнорируемых осей в обсуждениях управления AI.
Эта статья: AI Agent уже может независимо воспроизводить сложные академические статьи — Mollick утверждает, что ошибки чаще в человеческом первоисточнике, а не в AI. Впервые появилась в 鏈新聞 ABMedia.
Связанные статьи
Telegram запускает безкода AI-инструменты для роботов-ботов, поддерживает модели GPT и Llama
Индия запускает проект $650M AI City в Бангалоре, нацеленный на 25 000 исследователей к 2030 году
OpenAI нанимает лучших специалистов корпоративного ПО, поскольку передовые агенты меняют отрасль
Worxphere переименовывает JobKorea, внедряя инструменты найма с поддержкой ИИ
ОАЭ объявляют о переходе к модели AI-госуправления в ближайшие два года
Торговая платформа с ИИ Fere AI привлекла $1,3 млн при лидерстве Ethereal Ventures