AIエージェントは、複雑な学術論文を独力で再現できるようになっている:Mollickは、誤りはAIではなく人間の原文に多いと述べている

ペンシルバニア・ウォートン・スクールの教授 Ethan Mollick は、4/25 の X(旧Twitter)投稿で、学界に強い衝撃を与える観察を提示した。現在の AI agent は、原論文や原コードがなくても、公開されている方法の説明とデータだけで、複雑な学術研究の結果を独立して再現できるというのだ。Mollick はさらに、これらの AI による再現版が元の論文と食い違う場合、「誤りは往々にして AI ではなく、人間が書いた論文それ自体にある」と指摘している。これは、生成型 AI の時代における研究の再現可能性危機に対する、実質的な転機だ――これまで高額な人手が必要だった査読(ピア検証)が、AI によって大規模かつ低コストで実行されつつある。

Claude が複数の論文を再現し、その後 GPT-5 Pro で二重に検証

Mollick は自身の OneUsefulThing ブログと今回の投稿で、Claude に対する具体的な実験を説明している。すなわち、1 本の学術論文を Claude に渡し、アーカイブを開かせ、ファイルを整理させ、統計に使う STATA のコードを Python に自動変換させ、その後論文中のすべての発見を逐一実行させる。Claude の作業が完了したら、同一の再現結果を GPT-5 Pro で二回目の確認を行う。同様の方法で複数の論文がテストされ、結果は概ね成功しており、データファイルが大きすぎる場合、または元の replication data 自体に問題がある場合にのみ支障が出た。

学術界にとって、このプロセスは過去には通常、研究アシスタントが数週間、場合によっては数カ月を費やしていた。Mollick が述べた時間スケールは、午後から 1 日に収まり、運用コストは商用 LLM API のトークン費用だけだ。

誤りは人間の原文に多く、AI ではない

より物議を醸しているのは、Mollick による「誰が間違っているのか」の判断だ。彼は投稿の中で明確に、AI が再現した結果が原論文と一致しない場合、多くの場合 AI が間違えているのではなく、原論文におけるデータ処理の誤り、モデルの誤用、あるいは結論がデータ支援の範囲を超えていることにあると述べている。心理学、行動経済学、経営学などの社会科学では、過去 10 年あまりの間に、複数回の重大な再現可能性危機の出来事がすでに起きており、最も有名なのは 2015 年の Open Science Collaboration による大型再現研究で、心理学の論文結果で独立して再現できたのは約 36% だけだった。AI agent は、この検証プロセスを「人手で人員を割り当てる必要がある」から「誰でも実行できる」境界へ押し広げた。

AI の査読への入稿を依然禁じる、制度は技術に遅れ

Mollick は別の 4/25 の投稿で、自身が所属する分野で最大の学会である Academy of Management が、AI を論文審査のプロセスに明文で禁止していることを具体的に名指しした。彼は既存研究を引用し、AI による査読が、正確性、一貫性、バイアス制御の点で、一部の従来の人間の査読者よりもすでに優れていると指摘した。そのため「禁止」という立場は、逆に既存の査読システムの不全をより重くする可能性がある。こうした制度と技術のギャップは、今後 1〜2 年間、学術出版界、学会、助成機関の双方が直面せざるを得ない政策課題だ。

読者にとって、この議論は学界にとどまらない。AI agent が研究発見を即時に検証できるようになれば、産業界での研究引用、政策レポート、財務上の意思決定における学術的根拠が、「結論が独立した AI による再現に耐えられるか」という新しい検証のハードルに入っていく。Mollick が別の投稿で述べた補足に対応し、彼は政府が、ツールの強度が継続的に上昇していく状況下で、この検証に錨を下ろす唯一の主体だと考えている――そして政策設計の複雑さもまた、AI ガバナンスの議論で比較的見落とされがちな一つの主軸になっていくはずだ。

この記事の AI Agent はすでに複雑な学術論文を独立して再現可能:Mollick は誤りは AI ではなく人間の原文に多いと最初に述べたのは 鏈新聞 ABMedia。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

シンガポール外務大臣、Claude Codeを使ってRaspberry Pi上にカスタムAIアシスタントを展開

ゲートニュース、4月27日――シンガポール外務大臣ビビアン・バラクリシュナンは最近、自分が「外交官のセカンド・ブレイン」と呼ぶカスタムAIアシスタント・システムを構築したと発表した。Raspberry Pi 5 (クレジットカードサイズのマイクロコンピュータ)上で動作する。システムは自身のWhatsAppおよび

GateNews35分前

インドのECプラットフォームがChatGPT、Perplexity、Gemini向けのAIストアフロントをローンチ

Gate Newsのメッセージ、4月27日――インドのECプラットフォームであるFlipkart、BigBasket、Ajio、FirstCryは、エージェンティックコマースを支援するために、ChatGPT、Perplexity、Google Gemini向けのAIストアフロントを構築している。ここでは、AIツールがユーザーの代わりに買い物を行う。クイックコマース企業のSwiggyも、ChatGP向けのコネクタを構築した。

GateNews47分前

Telegramは、コード不要のAIロボット作成ツールを提供開始し、GPTおよびLlamaモデルに対応します

Techiexpert が 4 月 27 日に報じたところによると、Telegram はコード不要の AI ボット構築ツールを提供開始しました。ユーザーはプログラミングスキルを一切持たなくても、クリック操作によって AI ボットを作成し、デプロイできます。この新ツールは GPT、Llama などのさまざまな AI モデルに対応しており、Telegram Business に統合されています。

MarketWhisper1時間前

インド、バンガロールで $650M AIシティ計画を発表—2030年までに25,000人の研究者を目標

ゲート・ニュース(4月27日)— インドは、バンガロールで $650 百万ドル規模のAI都市を開発しており、エージェンティックAIのための世界初の物理的ラボとして機能することを目的とした50万平方フィートの施設を備えています。このプロジェクトは4つの主要なAIクラウドプロバイダーに対して400 Gbpsの接続性を提供し、さらに

GateNews2時間前

OpenAIが最上級のエンタープライズソフト人材を採用 フロンティアのエージェントが業界を攪乱

ゲートニュース 4月26日 — OpenAIとAnthropicは、Salesforce、Snowflake、Datadog、Palantirなどの大手エンタープライズソフトウェア企業から、シニア幹部および専門エンジニアを採用している。Salesforce傘下でSlackの元CEOだったDenise Dresserは、OpenAIの最高収益責任者として入社した

GateNews13時間前

Worxphere、AI搭載の採用ツールでJobKoreaをリブランディング

ゲートニュース(4月26日)— 韓国のHRプラットフォームWorxphereは、従来型のオンライン求人ボードからAI駆動の採用ソリューションへ移行するにあたり、JobKoreaをブランド変更しました。同社は、JobKoreaやAlbamonを含むサービスを統合し、正社員雇用、ギグワーク、外国人労働者の採用を対象とする統一プラットフォームを構築しています。

GateNews23時間前
コメント
0/400
コメントなし