中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

實測數(shù)據(jù)告訴你:帶引用的AI也不可靠

2025-07-29 20:00
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

圖片由Chatgpt生成,prompt如下:圖片尺寸為16:9,請你想象這樣一個場景:AI幻覺泛濫,會給整個社會帶來什么影響?

“約 35% 畢業(yè)生進入報社、電視臺、通訊社等機構,如《人民日報》、央視、澎湃新聞等,近 40% 畢業(yè)生進入互聯(lián)網(wǎng)平臺(如字節(jié)跳動、騰訊)、數(shù)字營銷公司或自媒體領域,約 15% 進入金融、咨詢、教育等行業(yè),從事品牌傳播、市場分析等工作?!?/em>

這段帶數(shù)據(jù)且言之鑿鑿的內(nèi)容由AI提供,附有多個引用鏈接,看上去十分令人信服。

然而,這些數(shù)據(jù)全部是虛假的。

許多用戶也有類似經(jīng)歷:向AI提問,它能信誓旦旦地給出一個看似合理的答案,甚至還可以給出了“權威出處”,但深入核實后發(fā)現(xiàn),這些信息來源或是根本不存在,或是與答案毫無關聯(lián)。

這種現(xiàn)象在人工智能研究領域被稱作AI幻覺(AI Hallucination),是指AI創(chuàng)建虛假信息并將其呈現(xiàn)為真實信息的情況。它不同于人類偶爾的記憶錯誤或口誤,而是 AI系統(tǒng)性地生成看似合理但實際上完全錯誤的信息,并且以看似準確的方式呈現(xiàn)給用戶。

那么,AI的幻覺到底有多嚴重?聯(lián)網(wǎng)搜索、深度思考這些機制,能否幫助消除AI幻覺?我們嘗試從學術研究中搜集相關數(shù)據(jù),并實測國內(nèi)幾款主流的大模型,來回答上述問題。

01|幻覺,一個所有大模型都會犯的錯誤

AI幻覺,并非某個特定模型的缺陷,而是當前AI技術架構的固有限制,是每一個大模型都會犯的錯誤。

引發(fā)AI幻覺產(chǎn)生的機制相當復雜,在模型開發(fā)與使用的每個階段都有可能引入錯誤信息或不穩(wěn)定因素,從而導致幻覺的出現(xiàn)。

比如,大語言模型所依賴的海量訓練數(shù)據(jù)來自互聯(lián)網(wǎng),數(shù)據(jù)源就包含著錯誤信息。如果訓練數(shù)據(jù)中某專業(yè)領域的知識較少,模型在面對相關問題時也會編造看似正確但實則錯誤的答案。此外,指令調(diào)優(yōu)過程也有可能會過度強化模型“必須回答用戶問題”的行為。

最重要的是,本質(zhì)上,大模型只是一個“概率生成機器”——它并不理解學習內(nèi)容的真正含義,只是根據(jù)在訓練中學到的詞匯搭配頻率來生成回答。

不過,不同大模型的幻覺程度有所不同。

為了檢驗不同大模型的幻覺水平,人工智能公司Vectara推出了專門的幻覺評估模型,可以基于模型在文本摘要任務中的表現(xiàn),檢測生成內(nèi)容與原始文本的語義一致性,進而評估模型的幻覺率。這款模型已經(jīng)成為行業(yè)內(nèi)部有關“AI幻覺”的權威測試工具。

在7月最新更新的一次AI幻覺排行榜中,谷歌的Gemini 2.0及2.5系列模型表現(xiàn)出色,整體幻覺率在0.7%-1.8%之間,其中Google Gemini-2.0-Flash-001模型在本次測試的所有模型中幻覺率最低。

在幻覺率最低的20個大模型中,來自Google或OpenAI的模型占據(jù)較大比例,這顯示出頭部廠商在提升模型可靠性上的進展。聚焦于國產(chǎn)模型,則是KIMI和智譜GLM模型的表現(xiàn)較為優(yōu)秀。

觀察幻覺率最高的20個大模型可以發(fā)現(xiàn),其中大部分都是參數(shù)量在10B以下的小模型,此外,一些指令調(diào)優(yōu)模型(instruct/it版本)的幻覺率也較高。

前階段大熱的DeepSeek-R1的幻覺率達到了14.3%,在測試的149個模型中位居第16位。專家推測,這可能是R1模型文學創(chuàng)造力過強帶來的副作用。

為了提升AI生成內(nèi)容的可信度,突破大模型訓練數(shù)據(jù)過時的局限,聯(lián)網(wǎng)搜索與引用機制應運而生。2021年12月,OpenAI發(fā)布了WebGPT模型,這也是最早實現(xiàn)網(wǎng)頁搜索并能夠標注信息出處的大模型之一。

現(xiàn)在,聯(lián)網(wǎng)搜索和引用功能已經(jīng)成為不少主流AI工具的標配。但是,這真的可以使AI生成的內(nèi)容更加準確嗎?

02|AI幻覺,聯(lián)網(wǎng)搜索也無法徹底規(guī)避

為了回答上面的問題,我們進行了一次簡單的實驗。我們模擬了一次專業(yè)信息查詢的過程。在開啟聯(lián)網(wǎng)搜索的情況下,小組成員圍繞著自己的專業(yè)情況對AI展開提問。我們選擇了國內(nèi)幾款比較主流的大模型,對每個大模型在開啟深度思考與不開啟深度思考的情況下分別詢問8個問題,總計提問400次。具體的實驗流程如下:

在AI生成的400個答案中,有鏈接被引用的次數(shù)是3123次。然而,僅有1706次引用能完全支持AI生成的答案內(nèi)容,仍然有45.37%的鏈接不能完全支持答案文本中的闡述。具體到模型的表現(xiàn)上,則是智譜清言和豆包的引用錯誤率較高,為50%以上。

也就是說,仍然有一定的概率,AI生成的內(nèi)容與鏈接文章的內(nèi)容無法實現(xiàn)完全匹配。如果不點開鏈接進行進一步確認,用戶將會很容易地被“騙”過去。

我們進一步觀察了引用鏈接無法支持生成文本的具體情形。除了鏈接失效以外,我們重點關注了錯誤的類別,包括無中生有、張冠李戴、時間混亂、以全概偏、計算錯誤、以偏概全六類。其中,無中生有這一類錯誤尤為常見。在3123個引用中,無中生有類引用共計出現(xiàn)了952次,占比30.48%。

此外,由于現(xiàn)階段這些AI工具并不具備事實核查的能力,只能從檢索到的文本中進行學習。因此,即使生成答案標注了來源鏈接,也無法保證信息的真實性和準確性。

而脫離開我們所模擬的信息查詢情景,AI幻覺也對我們的日常生活造成越來越切實的影響。尤其是在醫(yī)療、法律這些高度依賴信息準確性的領域中,AI幻覺可能會構成更嚴重的風險。

比AI幻覺本身更令人擔憂的是,公眾對這一風險仍然普遍缺乏警覺。

根據(jù)上海交通大學的研究結果,大部分人都沒有對AI幻覺形成足夠的認知:45.6%的受訪者僅表現(xiàn)出模糊或輕微的擔憂,缺乏對幻覺產(chǎn)生機制和誤導后果的具體理解,29.7%的群體幾乎沒有意識到AI可能構成信息誤導,對AI幻覺保持“高警覺”的人群僅占 8.5%。

作家Mathew Maavak這樣表達他對AI幻覺的擔憂:“我相信錯誤的數(shù)據(jù)和有缺陷的輸入已經(jīng)從AI系統(tǒng)流入交易和金融平臺、航空控制、核反應堆、生化武器實驗室和敏感的化學工廠——就在我寫這篇文章的時候?!?/p>

但就像人工智能教父杰弗里·辛頓說的:“人們還不明白發(fā)生了什么。”

“我們就像擁有一只非??蓯鄣睦匣⒂揍痰娜?。除非你能非常確定它長大后不會想殺你,否則你應該擔心?!?/span>

03|和幻覺共生的未來

面對大模型的幻覺問題,大廠的技術引領者們持有著不同的看法。

一方面,大模型廠商認為基于 “預測下一個單詞” 的訓練機制,幻覺率歸零 “非常困難”,公司只能通過迭代降低風險而非完全杜絕;另一方面,也有人期待,AI 幻覺只是大模型發(fā)展中的階段性問題,可通過技術手段逐步解決。例如,微軟就將幻覺視為 “可通過科學研究破解的機制問題”,并投入資源研究模型架構優(yōu)化。

近年來,各個大模型廠商開始致力于運用各種方法消除AI幻覺。尤其是通過不斷優(yōu)化模型架構,例如:通過開發(fā)推理模型來降低AI幻覺。

從原理上來說,依靠“思維鏈”的推理模型,能夠?qū)崿F(xiàn)從拆解問題、逐步推導,再到得出結論的結構化推理,這樣一來,模型就可以減少因邏輯錯誤產(chǎn)生的幻覺,并能通過對上下文的邏輯推導,更精準地把握信息間的關聯(lián),從而避免斷章取義。

然而,推理模型的實際表現(xiàn)不盡如人意。

我們的小實驗表明,在開啟深度思考的情況下,除KIMI以外,所有的大模型的句內(nèi)引用數(shù)都有所增加,但與此同時,大模型的引用錯誤率明顯上升——不同大模型的引用錯誤率在開啟深度思考后都達到了30%以上。

例如,在未開啟深度思考模式時,豆包的錯誤率為11.59%,為五款大模型中表現(xiàn)最好的大模型;但在開啟深度思考后,其錯誤率為58.79%,成為深度思考模式下引用錯誤率最高的大模型。

上述觀察和實際的規(guī)律相吻合。根據(jù)OpenAI的內(nèi)部測試,推理模型 o3 和 o4-mini 比該公司之前的推理模型 o1、o1-mini 和 o3-mini 以及 OpenAI 的非推理模型(如 GPT-4o)產(chǎn)生幻覺的頻率更高。

采用專門優(yōu)化的推理架構的DeepSeek-R1也出現(xiàn)了類似情況。在Vectara的幻覺評估測試中,其幻覺率高達14.3%,是前代模型DeepSeek-V3的近四倍。

如此看來,推理這個本來預期降低AI幻覺的功能,卻增加了AI幻覺率。

有學者推測,這可能是由于推理模型傾向在事實間建立虛構連接,造成邏輯過度外推;另一方面,高推理模型不會輕易說 “不知道”,而是自信地輸出一個符合概率的錯誤答案,甚至在初始假設錯誤的情況下,也可能基于錯誤前提進行下一步推理,這些情況都會導致推理模型的幻覺增加。

這背后的具體原理還有待學界的進一步探究。正如OpenAI在其針對 o3 和 o4-mini 的技術報告中寫到的, “需要更多研究來理解為什么隨著推理模型的擴展,幻覺會變得越來越嚴重?!?/p>

技術的進步需要時間。盡管目前人工智能技術取得了驚人進展,但很明顯,它仍然遠未達到可以被完全信任的程度。理解AI的局限性、學會與不完美的AI系統(tǒng)共處,或許是未來一段時間人機互動的常態(tài)。而在AI完全成熟之前,我們都是這場人機共存實驗的參與者。

最好的生存策略,也許就是永遠記?。?span style="color: #3598db;">再聰明的機器,也需要人類那顆會思考、會質(zhì)疑的心來為它把關。

參考資料:

[1] Huang L, Yu W, Ma W, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[J]. ACM Transactions on Information Systems, 2025, 43(2): 1-55.

[2] 字節(jié)跳動技術團隊 - 一文搞懂 | 大模型為什么出現(xiàn)幻覺?從成因到緩解方案, https://mp.weixin.qq.com/s/vCz2kyitgtOjN669gbHd6g

[3] OpenAI - WebGPT: Improving the factual accuracy of language models through web browsing, https://openai.com/index/webgpt/

[4] 新華網(wǎng) - “已讀亂回”你有警覺嗎?調(diào)研發(fā)現(xiàn)近七成公眾對大模型AI幻覺低感知, http://sh.news.cn/20250610/3223aa0ca7654a63a0b8db7e5b40ee3c/c.html

[5] RT - AI hallucinations: A budding sentience or a global embarrassment?, https://www.rt.com/news/618100-ai-hallucination-global-embarrassment/

[6] Fortune - ‘Godfather of AI’ says AI is like a cute tiger cub—unless you know it won’t turn on you, you should worry, https://fortune.com/article/geoffrey-hinton-ai-godfather-tiger-cub/

[7] Microsoft - Why AI sometimes gets it wrong — and bigstrides to address it, https://news.microsoft.com/source/features/company-news/why-ai-sometimes-gets-it-wrong-and-big-strides-to-address-it/?utm_source=chatgpt.com

[8] OpenAI - OpenAI o3 and o4-mini System Card, https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

[9] TechCrunch - OpenAI’s new reasoning AI models hallucinate more, https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

[10] 清華大學新聞與傳播學院新媒體研究中心 - DeepSeek與AI幻覺, https://www.lib.szu.edu.cn/sites/szulib/files/2025-02/DeepSeek與AI幻覺-清華大學-附知識庫_0.pdf

[11] 36kr - DeepSeek-R1超高幻覺率解析:為何大模型總“胡說八道”?, https://www.36kr.com/p/3163559253993986K

[12] AP news - Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said, https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14

復旦大學新聞學院《數(shù)據(jù)新聞與可視化》(碩士生)課程作品

指導老師:徐笛

作者:夏昊揚 李林杰 宋語陽 唐小茗

    本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司