Động cơ chấm điểm AI bị nhiễm bẩn tập thể: Trong đáp án đúng của Gemini 3, 56% không có bằng chứng hỗ trợ

ChainNewsAbmedia

根據 The Inference 2026 年 4 月 21 日刊出作者 Pedro Dias 的深度分析文,AI 模型崩潰(model collapse)並非業界擔心的「未來威脅」——它正以另一種形式即時發生:AI 答題引擎在查詢當下即時引用其他 AI 生成的網頁內容作為權威來源,整個污染循環無需經過模型重訓練。這個論點以「咬住自己尾巴的蛇(Ouroboros)學會了引用自己」作為核心比喻。

Model Collapse 與 Retrieval Contamination 的關鍵差異

傳統對 AI 模型退化的擔憂圍繞 model collapse:合成內容逐步污染訓練資料、未來世代模型品質下滑。這是慢性、需要多輪重訓練才顯現的風險。

Pedro Dias 提出的警訊是另一層面:retrieval contamination(檢索污染)。Perplexity、Google AI Overviews、ChatGPT、Grok 等以 RAG(retrieval-augmented generation)為基礎的答題引擎,在使用者提問的當下即時抓取網頁內容作為答案依據。如果抓到的網頁本身就是 AI 生成的錯誤內容,引擎就把它當成事實呈現給讀者——而且這個污染不需要任何重訓練即時生效。

三個真實案例:AI 引擎被自己生成的假訊息欺騙

作者列出三個具體事件:

一、Lily Ray 事件:Perplexity 曾引用一個名為「September 2025 Perspective Core Algorithm Update」的所謂 Google 演算法更新作為權威資訊——這個更新根本不存在,來源是 AI 生成的 SEO 部落格假文。

二、Thomas Germain 實測:記者 Thomas Germain 發了一篇測試性部落格「吃熱狗最強的科技記者」,24 小時內就被 Google AI Overviews 與 ChatGPT 排在第一位並引用,還虛構出一個不存在的「南達科他州錦標賽」加以佐證。

三、Grokipedia:Musk 旗下 xAI 的百科計畫已生成或改寫 885,279 篇文章,包含錯誤事實(例如加拿大歌手 Feist 的父親逝世日期寫錯)與無據引用。Grokipedia 2026 年 2 月中已在 Google 失去大部分能見度。

Oumi 研究:Gemini 3 正確率高,但 56% 沒來源

NYT 委託 Oumi 進行的評估:Gemini 2 在 SimpleQA 基準測試正確率 85%、Gemini 3 提升到 91%。但同一個測試顯示,Gemini 3 的正確答案中有 56% 是「ungrounded」——模型回答對了但沒有可驗證的支持來源;Gemini 2 的此比例為 37%。

這意味新世代模型在答案「形式上更精確」,卻同時在「答案來源可追溯性」上退步。對於媒體、研究、事實查核等場景,這個退步比純粹錯誤率更致命,因為讀者無法回溯到原始權威文件自行驗證。

產業規模:Google AI Overviews 覆蓋 20 億用戶

這個污染問題的產業規模:Google AI Overviews 月活用戶超過 20 億、Google 年搜尋量超過 5 兆次、ChatGPT 週活接近 9 億(5,000 萬付費)。也就是絕大多數網路使用者取得事實資訊的管道,都已經走過「可能被 AI 生成內容污染」的答題引擎層。

Ahrefs 另外的研究顯示,ChatGPT 引用的來源中有 44% 是「best X」類榜單文——這類文章正是 SEO 業為對抗答題引擎流失流量而大量產出的 AI 內容,恰好構成答題引擎的主要污染來源。

結構性結論:引用層已與可靠作者身份脫鉤

作者的最終論斷:AI 答題引擎的引用層已經與可靠作者身份脫鉤。SEO 業產出 AI 內容 → 答題引擎抓來當事實 → 讀者相信 → SEO 業獲得激勵繼續產出更多 AI 內容,形成自我強化的污染循環。目前整個產業沒有明確的問責機制讓 AI 引擎對自己引用的來源品質負責。

對使用者而言,這意味著現階段不能把 Perplexity、AI Overviews、ChatGPT 的回答當作事實查核的終點,仍需要人工回溯到官方一手來源才能確保準確。

這篇文章 AI 答題引擎集體污染:Gemini 3 正確答案中 56% 無來源支持 最早出現於 鏈新聞 ABMedia。

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

OpenAI Ra Mắt GPT-5.5, Được Thiết Kế Cho Nhiệm Vụ Agent và Quy Trình Phức Tạp

Tin tức từ Gate, ngày 24 tháng 4 — OpenAI đã chính thức phát hành GPT-5.5, một mô hình AI thế hệ tiếp theo được thiết kế để xử lý các mục tiêu phức tạp, tích hợp công cụ, tự kiểm chứng và hoàn thành các tác vụ theo nhiều bước. Mô hình nổi bật trong việc viết mã và gỡ lỗi, nghiên cứu trực tuyến, phân tích dữ liệu, tạo tài liệu

GateNews12phút trước

Kết quả tài chính của Intel vượt kỳ vọng, nhu cầu AI thúc đẩy CPU đảo chiều, sau khi Chen Liwu tiếp quản, INTC đã tăng gấp 3 lần

Doanh thu theo quý của Intel đạt 13,6 tỷ USD, EPS 0,29; trong dự báo quý hai, giá trị trung bình là 14,3 tỷ USD, vượt xa kỳ vọng, biên lợi nhuận gộp 41%. Nhu cầu trung tâm dữ liệu AI thúc đẩy sự phục hồi của CPU, các máy chủ như Xeon được săn đón. Trần Lập Vũ dẫn dắt quá trình chuyển đổi, IFS quý đầu đạt 5,4 tỷ USD, tăng 16%, các khách hàng bên ngoài như Tesla quan tâm Terafab sử dụng công nghệ của Intel. Sau giờ giao dịch, giá cổ phiếu tăng khoảng 20%, lập kỷ lục cao nhất lịch sử, kể từ năm ngoái đã tăng gần 3 lần.

ChainNewsAbmedia24phút trước

Cognition AI Huy động vốn với mức định giá $25B trong các cuộc đàm phán giai đoạn đầu

Tin tức từ Gate, ngày 24 tháng 4 — Cognition AI, một startup lập trình dựa trên AI, đang trong giai đoạn đàm phán ban đầu cho một vòng gọi vốn mới, dự kiến sẽ nâng định giá của công ty lên hơn gấp đôi lên $25 tỷ USD, theo các nguồn tin nắm được vấn đề. Công ty nhắm tới việc huy động hàng trăm triệu đô la hoặc hơn nữa khi nhu cầu đối với công nghệ AI tạo sinh trong phát triển phần mềm tiếp tục tăng.

GateNews1giờ trước

Anthropic Xác Định Ba Thay Đổi Ở Lớp Sản Phẩm Dẫn Tới Suy Giảm Chất Lượng Claude Code, Không Phải Lỗi Từ Mô Hình

Tin Cổng, ngày 23 tháng 4 — Nhóm kỹ thuật của Anthropic đã xác nhận rằng sự suy giảm chất lượng của Claude Code được người dùng báo cáo trong tháng qua bắt nguồn từ ba thay đổi độc lập ở lớp sản phẩm, không phải từ vấn đề API hay từ mô hình nền tảng. Ba vấn đề này đã được khắc phục lần lượt vào ngày 7 tháng 4, ngày 10 tháng 4 và A

GateNews2giờ trước

Tập đoàn NEC trở thành đối tác toàn cầu đầu tiên của Anthropic tại Nhật Bản

NEC 宣 bố trở thành đối tác hợp tác toàn cầu đầu tiên của Anthropic tại Nhật Bản, cả hai sẽ phát triển các giải pháp AI an toàn và có hiểu biết chuyên ngành cho các ngành được quản lý chặt chẽ như tài chính, sản xuất và chính quyền địa phương, đồng thời tích hợp dòng Claude vào NEC BluStellar, tập trung vào chuyển đổi quản lý dựa trên dữ liệu và trải nghiệm khách hàng. Đồng thời, đưa Claude Cowork và tích hợp SOC để nâng cao khả năng phòng vệ an ninh mạng. Để xác minh hiệu quả, NEC khởi động kế hoạch Khách hàng số 0 để thử nghiệm toàn diện AI agent nội bộ, và lên kế hoạch triển khai Claude trên phạm vi toàn cầu, xây dựng CoE kỹ sư AI gốc có quy mô lớn nhất tại Nhật Bản.

ChainNewsAbmedia4giờ trước

Vụ xâm phạm bảo mật của Vercel mở rộng đến hàng trăm người dùng; các nhà phát triển AI có nguy cơ cao hơn

Thông báo Gate News, ngày 23 tháng 4 — Vercel cho biết vào ngày 19 tháng 4 rằng sự cố bảo mật của hãng, ban đầu được mô tả là ảnh hưởng đến "một nhóm khách hàng giới hạn," đã mở rộng sang một cộng đồng nhà phát triển rộng lớn hơn nhiều, đặc biệt là những người đang xây dựng các quy trình làm việc tác nhân AI. Cuộc tấn công có thể ảnh hưởng đến hàng trăm người dùng

GateNews5giờ trước
Bình luận
0/400
Không có bình luận