實測數(shù)據(jù)告訴你：帶引用的AI也不可靠

2025-07-29 20:00

來源：澎湃新聞·澎湃號·湃客

聽全文

圖片由Chatgpt生成，prompt如下：圖片尺寸為16:9，請你想象這樣一個場景：AI幻覺泛濫，會給整個社會帶來什么影響？

“約 35% 畢業(yè)生進入報社、電視臺、通訊社等機構，如《人民日報》、央視、澎湃新聞等，近 40% 畢業(yè)生進入互聯(lián)網(wǎng)平臺（如字節(jié)跳動、騰訊）、數(shù)字營銷公司或自媒體領域，約 15% 進入金融、咨詢、教育等行業(yè)，從事品牌傳播、市場分析等工作?！?/em>

這段帶數(shù)據(jù)且言之鑿鑿的內(nèi)容由AI提供，附有多個引用鏈接，看上去十分令人信服。

然而，這些數(shù)據(jù)全部是虛假的。

許多用戶也有類似經(jīng)歷：向AI提問，它能信誓旦旦地給出一個看似合理的答案，甚至還可以給出了“權威出處”，但深入核實后發(fā)現(xiàn)，這些信息來源或是根本不存在，或是與答案毫無關聯(lián)。

這種現(xiàn)象在人工智能研究領域被稱作AI幻覺（AI Hallucination），是指AI創(chuàng)建虛假信息并將其呈現(xiàn)為真實信息的情況。它不同于人類偶爾的記憶錯誤或口誤，而是 AI系統(tǒng)性地生成看似合理但實際上完全錯誤的信息，并且以看似準確的方式呈現(xiàn)給用戶。

那么，AI的幻覺到底有多嚴重？聯(lián)網(wǎng)搜索、深度思考這些機制，能否幫助消除AI幻覺？我們嘗試從學術研究中搜集相關數(shù)據(jù)，并實測國內(nèi)幾款主流的大模型，來回答上述問題。

01｜幻覺，一個所有大模型都會犯的錯誤

AI幻覺，并非某個特定模型的缺陷，而是當前AI技術架構的固有限制，是每一個大模型都會犯的錯誤。

引發(fā)AI幻覺產(chǎn)生的機制相當復雜，在模型開發(fā)與使用的每個階段都有可能引入錯誤信息或不穩(wěn)定因素，從而導致幻覺的出現(xiàn)。

比如，大語言模型所依賴的海量訓練數(shù)據(jù)來自互聯(lián)網(wǎng)，數(shù)據(jù)源就包含著錯誤信息。如果訓練數(shù)據(jù)中某專業(yè)領域的知識較少，模型在面對相關問題時也會編造看似正確但實則錯誤的答案。此外，指令調(diào)優(yōu)過程也有可能會過度強化模型“必須回答用戶問題”的行為。

最重要的是，本質(zhì)上，大模型只是一個“概率生成機器”——它并不理解學習內(nèi)容的真正含義，只是根據(jù)在訓練中學到的詞匯搭配頻率來生成回答。

不過，不同大模型的幻覺程度有所不同。

為了檢驗不同大模型的幻覺水平，人工智能公司Vectara推出了專門的幻覺評估模型，可以基于模型在文本摘要任務中的表現(xiàn)，檢測生成內(nèi)容與原始文本的語義一致性，進而評估模型的幻覺率。這款模型已經(jīng)成為行業(yè)內(nèi)部有關“AI幻覺”的權威測試工具。

在7月最新更新的一次AI幻覺排行榜中，谷歌的Gemini 2.0及2.5系列模型表現(xiàn)出色，整體幻覺率在0.7%-1.8%之間，其中Google Gemini-2.0-Flash-001模型在本次測試的所有模型中幻覺率最低。

在幻覺率最低的20個大模型中，來自Google或OpenAI的模型占據(jù)較大比例，這顯示出頭部廠商在提升模型可靠性上的進展。聚焦于國產(chǎn)模型，則是KIMI和智譜GLM模型的表現(xiàn)較為優(yōu)秀。

觀察幻覺率最高的20個大模型可以發(fā)現(xiàn)，其中大部分都是參數(shù)量在10B以下的小模型，此外，一些指令調(diào)優(yōu)模型（instruct/it版本）的幻覺率也較高。
前階段大熱的DeepSeek-R1的幻覺率達到了14.3%，在測試的149個模型中位居第16位。專家推測，這可能是R1模型文學創(chuàng)造力過強帶來的副作用。
為了提升AI生成內(nèi)容的可信度，突破大模型訓練數(shù)據(jù)過時的局限，聯(lián)網(wǎng)搜索與引用機制應運而生。2021年12月，OpenAI發(fā)布了WebGPT模型，這也是最早實現(xiàn)網(wǎng)頁搜索并能夠標注信息出處的大模型之一。
現(xiàn)在，聯(lián)網(wǎng)搜索和引用功能已經(jīng)成為不少主流AI工具的標配。但是，這真的可以使AI生成的內(nèi)容更加準確嗎？
02｜AI幻覺，聯(lián)網(wǎng)搜索也無法徹底規(guī)避
為了回答上面的問題，我們進行了一次簡單的實驗。我們模擬了一次專業(yè)信息查詢的過程。在開啟聯(lián)網(wǎng)搜索的情況下，小組成員圍繞著自己的專業(yè)情況對AI展開提問。我們選擇了國內(nèi)幾款比較主流的大模型，對每個大模型在開啟深度思考與不開啟深度思考的情況下分別詢問8個問題，總計提問400次。具體的實驗流程如下：
在AI生成的400個答案中，有鏈接被引用的次數(shù)是3123次。然而，僅有1706次引用能完全支持AI生成的答案內(nèi)容，仍然有45.37%的鏈接不能完全支持答案文本中的闡述。具體到模型的表現(xiàn)上，則是智譜清言和豆包的引用錯誤率較高，為50%以上。
也就是說，仍然有一定的概率，AI生成的內(nèi)容與鏈接文章的內(nèi)容無法實現(xiàn)完全匹配。如果不點開鏈接進行進一步確認，用戶將會很容易地被“騙”過去。
我們進一步觀察了引用鏈接無法支持生成文本的具體情形。除了鏈接失效以外，我們重點關注了錯誤的類別，包括無中生有、張冠李戴、時間混亂、以全概偏、計算錯誤、以偏概全六類。其中，無中生有這一類錯誤尤為常見。在3123個引用中，無中生有類引用共計出現(xiàn)了952次，占比30.48%。
此外，由于現(xiàn)階段這些AI工具并不具備事實核查的能力，只能從檢索到的文本中進行學習。因此，即使生成答案標注了來源鏈接，也無法保證信息的真實性和準確性。
而脫離開我們所模擬的信息查詢情景，AI幻覺也對我們的日常生活造成越來越切實的影響。尤其是在醫(yī)療、法律這些高度依賴信息準確性的領域中，AI幻覺可能會構成更嚴重的風險。
比AI幻覺本身更令人擔憂的是，公眾對這一風險仍然普遍缺乏警覺。
根據(jù)上海交通大學的研究結果，大部分人都沒有對AI幻覺形成足夠的認知：45.6%的受訪者僅表現(xiàn)出模糊或輕微的擔憂，缺乏對幻覺產(chǎn)生機制和誤導后果的具體理解，29.7%的群體幾乎沒有意識到AI可能構成信息誤導，對AI幻覺保持“高警覺”的人群僅占 8.5%。
作家Mathew Maavak這樣表達他對AI幻覺的擔憂：“我相信錯誤的數(shù)據(jù)和有缺陷的輸入已經(jīng)從AI系統(tǒng)流入交易和金融平臺、航空控制、核反應堆、生化武器實驗室和敏感的化學工廠——就在我寫這篇文章的時候?！?/p>
但就像人工智能教父杰弗里·辛頓說的：“人們還不明白發(fā)生了什么。”
“我們就像擁有一只非?？蓯鄣睦匣⒂揍痰娜?。除非你能非常確定它長大后不會想殺你，否則你應該擔心?！?/span>
03｜和幻覺共生的未來
面對大模型的幻覺問題，大廠的技術引領者們持有著不同的看法。
一方面，大模型廠商認為基于 “預測下一個單詞” 的訓練機制，幻覺率歸零 “非常困難”，公司只能通過迭代降低風險而非完全杜絕；另一方面，也有人期待，AI 幻覺只是大模型發(fā)展中的階段性問題，可通過技術手段逐步解決。例如，微軟就將幻覺視為 “可通過科學研究破解的機制問題”，并投入資源研究模型架構優(yōu)化。
近年來，各個大模型廠商開始致力于運用各種方法消除AI幻覺。尤其是通過不斷優(yōu)化模型架構，例如：通過開發(fā)推理模型來降低AI幻覺。
從原理上來說，依靠“思維鏈”的推理模型，能夠?qū)崿F(xiàn)從拆解問題、逐步推導，再到得出結論的結構化推理，這樣一來，模型就可以減少因邏輯錯誤產(chǎn)生的幻覺，并能通過對上下文的邏輯推導，更精準地把握信息間的關聯(lián)，從而避免斷章取義。
然而，推理模型的實際表現(xiàn)不盡如人意。
我們的小實驗表明，在開啟深度思考的情況下，除KIMI以外，所有的大模型的句內(nèi)引用數(shù)都有所增加，但與此同時，大模型的引用錯誤率明顯上升——不同大模型的引用錯誤率在開啟深度思考后都達到了30%以上。
例如，在未開啟深度思考模式時，豆包的錯誤率為11.59%，為五款大模型中表現(xiàn)最好的大模型；但在開啟深度思考后，其錯誤率為58.79%，成為深度思考模式下引用錯誤率最高的大模型。
上述觀察和實際的規(guī)律相吻合。根據(jù)OpenAI的內(nèi)部測試，推理模型 o3 和 o4-mini 比該公司之前的推理模型 o1、o1-mini 和 o3-mini 以及 OpenAI 的非推理模型（如 GPT-4o）產(chǎn)生幻覺的頻率更高。
采用專門優(yōu)化的推理架構的DeepSeek-R1也出現(xiàn)了類似情況。在Vectara的幻覺評估測試中，其幻覺率高達14.3%，是前代模型DeepSeek-V3的近四倍。
如此看來，推理這個本來預期降低AI幻覺的功能，卻增加了AI幻覺率。
有學者推測，這可能是由于推理模型傾向在事實間建立虛構連接，造成邏輯過度外推；另一方面，高推理模型不會輕易說 “不知道”，而是自信地輸出一個符合概率的錯誤答案，甚至在初始假設錯誤的情況下，也可能基于錯誤前提進行下一步推理，這些情況都會導致推理模型的幻覺增加。
這背后的具體原理還有待學界的進一步探究。正如OpenAI在其針對 o3 和 o4-mini 的技術報告中寫到的， “需要更多研究來理解為什么隨著推理模型的擴展，幻覺會變得越來越嚴重?！?/p>
技術的進步需要時間。盡管目前人工智能技術取得了驚人進展，但很明顯，它仍然遠未達到可以被完全信任的程度。理解AI的局限性、學會與不完美的AI系統(tǒng)共處，或許是未來一段時間人機互動的常態(tài)。而在AI完全成熟之前，我們都是這場人機共存實驗的參與者。
最好的生存策略，也許就是永遠記?。?span style="color: #3598db;">再聰明的機器，也需要人類那顆會思考、會質(zhì)疑的心來為它把關。
參考資料：
[1] Huang L, Yu W, Ma W, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[J]. ACM Transactions on Information Systems, 2025, 43(2): 1-55.
[2] 字節(jié)跳動技術團隊 - 一文搞懂 | 大模型為什么出現(xiàn)幻覺？從成因到緩解方案, https://mp.weixin.qq.com/s/vCz2kyitgtOjN669gbHd6g
[3] OpenAI - WebGPT: Improving the factual accuracy of language models through web browsing, https://openai.com/index/webgpt/
[4] 新華網(wǎng) - “已讀亂回”你有警覺嗎？調(diào)研發(fā)現(xiàn)近七成公眾對大模型AI幻覺低感知, http://sh.news.cn/20250610/3223aa0ca7654a63a0b8db7e5b40ee3c/c.html
[5] RT - AI hallucinations: A budding sentience or a global embarrassment?, https://www.rt.com/news/618100-ai-hallucination-global-embarrassment/
[6] Fortune - ‘Godfather of AI’ says AI is like a cute tiger cub—unless you know it won’t turn on you, you should worry, https://fortune.com/article/geoffrey-hinton-ai-godfather-tiger-cub/
[7] Microsoft - Why AI sometimes gets it wrong — and bigstrides to address it, https://news.microsoft.com/source/features/company-news/why-ai-sometimes-gets-it-wrong-and-big-strides-to-address-it/?utm_source=chatgpt.com
[8] OpenAI - OpenAI o3 and o4-mini System Card, https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf
[9] TechCrunch - OpenAI’s new reasoning AI models hallucinate more, https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/
[10] 清華大學新聞與傳播學院新媒體研究中心 - DeepSeek與AI幻覺, https://www.lib.szu.edu.cn/sites/szulib/files/2025-02/DeepSeek與AI幻覺-清華大學-附知識庫_0.pdf
[11] 36kr - DeepSeek-R1超高幻覺率解析：為何大模型總“胡說八道”？, https://www.36kr.com/p/3163559253993986K
[12] AP news - Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said, https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14
復旦大學新聞學院《數(shù)據(jù)新聞與可視化》（碩士生）課程作品
指導老師：徐笛
作者：夏昊揚李林杰宋語陽唐小茗