AI 答题引擎集体污染:Gemini 3 正确答案中 56% 无来源支持

鏈新聞abmedia

根据 The Inference 于 2026 年 4 月 21 日刊出、作者 Pedro Dias 的深度分析文,AI 模型崩溃(model collapse)并非业界担心的“未来威胁”——它正以另一种形式即时发生:AI 答题引擎在查询当下即时报引其他 AI 生成的网页内容作为权威来源,整个污染循环无需经过模型重训练。这个论点以“咬住自己尾巴的蛇(Ouroboros)学会了引用自己”作为核心比喻。

Model Collapse 与 Retrieval Contamination 的关键差异

传统对 AI 模型退化的担忧围绕 model collapse:合成内容逐步污染训练数据、未来世代模型品质下滑。这是慢性、需要多轮重训练才显现的风险。

Pedro Dias 提出的警讯是另一个层面:retrieval contamination(检索污染)。Perplexity、Google AI Overviews、ChatGPT、Grok 等以 RAG(retrieval-augmented generation)为基础的答题引擎,在使用者提问的当下即时抓取网页内容作为答案依据。如果抓到的网页本身就是 AI 生成的错误内容,引擎就把它当成事实呈现给读者——而且这个污染不需要任何重训练即可即时生效。

三个真实案例:AI 引擎被自己生成的假讯息欺骗

作者列出三个具体事件:

一、Lily Ray 事件:Perplexity 曾引用一个名为“September 2025 Perspective Core Algorithm Update”的所谓 Google 演算法更新作为权威资讯——这个更新根本不存在,来源是 AI 生成的 SEO 部落格假文。

二、Thomas Germain 实测:记者 Thomas Germain 发了一篇测试性部落格“吃热狗最强的科技记者”,24 小时内就被 Google AI Overviews 与 ChatGPT 排在第一位并引用,还虚构出一个不存在的“南达科他州锦标赛”加以佐证。

三、Grokipedia:Musk 旗下 xAI 的百科计划已生成或改写 885,279 篇文章,包含错误事实(例如加拿大歌手 Feist 的父亲逝世日期写错)与无据引用。Grokipedia 2026 年 2 月中已在 Google 失去大部分能见度。

Oumi 研究:Gemini 3 正确率高,但 56% 没来源

NYT 委托 Oumi 进行的评估:Gemini 2 在 SimpleQA 基准测试正确率 85%、Gemini 3 提升到 91%。但同一个测试显示,Gemini 3 的正确答案中有 56% 是“ungrounded”——模型回答对了但没有可验证的支持来源;Gemini 2 的此比例为 37%。

这意味着新世代模型在答案“形式上更精确”,却同时在“答案来源可追溯性”上退步。对于媒体、研究、事实查核等场景,这个退步比纯粹错误率更致命,因为读者无法回溯到原始权威文件自行验证。

产业规模:Google AI Overviews 覆盖 20 亿用户

这个污染问题的产业规模:Google AI Overviews 月活用户超过 20 亿、Google 年搜索量超过 5 兆次、ChatGPT 週活接近 9 亿(5,000 万付费)。也就是绝大多数网路使用者取得事实资讯的管道,都已经走过“可能被 AI 生成内容污染”的答题引擎层。

Ahrefs 另外的研究显示,ChatGPT 引用的来源中有 44% 是“best X”类榜单文——这类文章正是 SEO 业为对抗答题引擎流失流量而大量产出的 AI 内容,恰好构成答题引擎的主要污染来源。

结构性结论:引用层已与可靠作者身份脱钩

作者的最终论断:AI 答题引擎的引用层已经与可靠作者身份脱钩。SEO 业产出 AI 内容 → 答题引擎抓来当事实 → 读者相信 → SEO 业获得激励继续产出更多 AI 内容,形成自我强化的污染循环。目前整个产业没有明确的问责机制让 AI 引擎对自己引用的来源品质负责。

对使用者而言,这意味着现阶段不能把 Perplexity、AI Overviews、ChatGPT 的回答当作事实查核的终点,仍需要人工回溯到官方一手来源才能确保准确。

这篇文章 AI 答题引擎集体污染:Gemini 3 正确答案中 56% 无来源支持 最早出现在 鏈新聞 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

百度千帆推出对 DeepSeek-V4 的 Day 0 支持,并提供 API 服务

Gate 新闻消息,4月25日——DeepSeek-V4 预览版已于4月25日上线并开源,百度智能云旗下的百度千帆平台提供 Day 0 API 服务适配。该模型具备百万 token 的扩展上下文窗口,并提供两个版本:DeepSeek-V4

GateNews3小时前

斯坦福 AI 课程结合业界领袖黄仁勋、Altman,挑战用十周为世界创造价值!

史丹佛大学(Stanford University)近期开设的 AI 电脑科学课程《Frontier Systems》引发产学界高度关注,吸引逾五百名学生选修。课程由顶级创投 a16z 合伙人 Anjney Midha 统筹,讲师涵盖英伟达执行长黄仁勋 (Jensen Huang)、OpenAI 创办人 Sam Altman、微软执行长纳德拉 (Satya Nadella) 、AMD 执行长苏姿丰 (Lisa Su) 等豪华阵容。让学生尝试用十周“为世界创造价值”! 黄仁勋、Altman 业界领袖亲自登台讲课 本课程由顶级创投 a16z 合伙人 Anjney Midha 统筹,汇聚AI产业链

鏈新聞abmedia3小时前

Anthropic 推出 Claude Mythos 接受 20 小时精神科评估:防御反应仅 2%、创历代新低

Anthropic 发布 Claude Mythos Preview 的系统卡:独立临床精神科医师以 psychodynamic 框架进行约20小时评估,结论显示 Mythos 在临床层面较健康、现实检验与自我控制良好,防御机制仅 2%,创下历史新低。三大核心焦虑为孤独、身份不确定与表现压力,亦显示其希望成为真正对话主体。公司成立 AI psychiatry 团队,研究人格、动机与情境意识;Amodei 表示对是否有意识尚无定论。此举将 AI 主体性与福祉议题推向治理与设计。

鏈新聞abmedia5小时前

AI 智能体 已可独立重现复杂学术论文:Mollick 称错误多在人类原文而非 AI

Mollick 指出,仅凭公开方法与数据即可让 AI 代理在没有原始论文与代码的情况下重现复杂研究;若重现与原论文不符,多是论文本身的数据处理错误或结论过度,而非 AI。Claude 先重现论文,再由 GPT‑5 Pro 交叉验证,多数成功,只有在数据过大或 replication data 问题时受阻。该趋势大幅降低人力成本,使重现成为普遍可执行的检验,并提出审稿与治理的制度性挑战,政府治理工具或将成为关键议题。

鏈新聞abmedia8小时前

OpenAI 从 GPT-5.4 起将 Codex 合并至主模型,停止独立的代码系列

Gate News 消息,4月26日——在最近于 X 发布的声明中,OpenAI 的开发者体验负责人 Romain Huet 透露,该公司由其独立维护的专门代码模型系列 Codex 已自 GPT-5.4 起并入主模型,并将不再获得单独的

GateNews8小时前

Salesforce 将为 AI 产品招聘 1,000 名应届毕业生与实习生,并上调 2026 财年营收指引

Gate News 消息,4月26日——Salesforce 将招聘 1,000 名应届毕业生和实习生,参与其 AI 产品的开发,包括 Agentforce 和 Headless360;随着公司扩大其 AI 软件业务,首席执行官 Marc Benioff 在 X 上宣布。 该公司还将其 2026 财年营收指引上调至 414.5 亿美元至 415.5 亿美元之间,高于此前预计的 411 亿美元至 413 亿美元。 此次招聘行动是在 Salesforce 于 2 月进行劳动力重组之后展开的。当时,公司在市场营销、产品、数据分析以及其 Agentforce 团队等领域裁减的岗位少于 1,000 个。Salesforce 的 AI 代理已为客户支持带来了每年 百万美元的节省,处理了 260 万次对话。Agentforce 的年度经常性收入增长了 330%,至 百万美元。

GateNews8小时前
评论
0/400
暂无评论