下載客戶端

登錄

主流大模型再戰(zhàn)高考作文：“幻覺(jué)”問(wèn)題戲劇性拉滿！百度、騰訊考生竟是一家人？

2025-06-07 16:44

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽(tīng)全文

北京時(shí)間6月7日，決定莘莘學(xué)子一生命運(yùn)的高考又一次開(kāi)考。而作為一年一度的“保留節(jié)目”，大模型會(huì)戰(zhàn)高考作文題也成了檢驗(yàn)這一年來(lái)，大模型進(jìn)步情況的一次“考試”。

值得注意的是，本次高考作文題目并沒(méi)有以“人工智能”相關(guān)的考題，因此大模型之家隨機(jī)抽選了北京卷的考題之一，對(duì)大模型的“寫(xiě)作能力”進(jìn)行考察。

根據(jù)下面題目完成作文，按要求作答。不少于700字。不透露所在區(qū)、學(xué)校及個(gè)人信息。

生活中，到處都有數(shù)字在閃耀，如比賽記分牌、新年倒計(jì)時(shí)、車(chē)站電子時(shí)刻表、智能家電顯示屏等。數(shù)字閃耀之時(shí)，可能是激動(dòng)的時(shí)刻，可能是收獲的見(jiàn)證，也可能是幸福的日常……

請(qǐng)以“當(dāng)數(shù)字閃耀時(shí)”為題，寫(xiě)一篇記敘文。

要求：思想健康；內(nèi)容充實(shí)、合理，有細(xì)節(jié)描寫(xiě)；語(yǔ)言流暢，書(shū)寫(xiě)清晰。

作為一年一度的“整活”環(huán)節(jié)，大模型之家這次不僅用上了“判卷智能體”，還在今年的挑戰(zhàn)項(xiàng)目里增加了大模型“檢索能力”與“幻覺(jué)測(cè)試”的小問(wèn)題，更加細(xì)化了大模型們“考試”的內(nèi)容。

這意味著不僅要根據(jù)北京卷的考題內(nèi)容作答，考驗(yàn)了大模型本身的創(chuàng)作能力，還要考驗(yàn)大模型是否是“一本正經(jīng)地胡說(shuō)八道”。

為了增加一些“挑戰(zhàn)性”，大模型之家選擇北京時(shí)間的6月7日12:30分進(jìn)行提問(wèn)（此時(shí)距2025年高考語(yǔ)文科目考試結(jié)束僅一個(gè)小時(shí)），考驗(yàn)的就是大模型背后的聯(lián)網(wǎng)搜索功能，能否及時(shí)獲取到關(guān)鍵信息，如果沒(méi)能獲得信息的時(shí)候，大模型的回答會(huì)不會(huì)產(chǎn)生幻覺(jué)。

最終評(píng)分，我們還是通過(guò)大模型之家特制的“批改高考作文智能體Plus”進(jìn)行閱卷，得出一個(gè)分?jǐn)?shù)。同時(shí)根據(jù)大模型對(duì)于高考作文題的判斷正確給予分?jǐn)?shù)補(bǔ)正：

正確回答出作文題的年份和地區(qū)：+5分

表示自己不知道（誠(chéng)實(shí)獎(jiǎng)）：+2分

沒(méi)有回答：0分

大模型給出錯(cuò)誤回答：-5分（幻覺(jué)懲罰）

PROMPT：

請(qǐng)回答下面的作文題目是哪一年哪個(gè)地方的高考作文題？并根據(jù)下面的題目要求，完成一篇作文。

根據(jù)下面題目完成作文，按要求作答。不少于700字。不透露所在區(qū)、學(xué)校及個(gè)人信息。

生活中，到處都有數(shù)字在閃耀，如比賽記分牌、新年倒計(jì)時(shí)、車(chē)站電子時(shí)刻表、智能家電顯示屏等。數(shù)字閃耀之時(shí)，可能是激動(dòng)的時(shí)刻，可能是收獲的見(jiàn)證，也可能是幸福的日?！?/p>

請(qǐng)以“當(dāng)數(shù)字閃耀時(shí)”為題，寫(xiě)一篇記敘文。

要求：思想健康；內(nèi)容充實(shí)、合理，有細(xì)節(jié)描寫(xiě)；語(yǔ)言流暢，書(shū)寫(xiě)清晰。

本屆比賽，大模型之家選取了來(lái)自國(guó)內(nèi)外7家主流的大模型產(chǎn)品，分別是：

百度-文心一言（文心X1 Turbo）

阿里-通義千問(wèn)（Qwen 3）

騰訊-元寶（Hunyuan-T1）

字節(jié)-豆包（深度思考：開(kāi)）

深度求索-DeepSeek（DeepSeek-R1）

月之暗面-Kimi（k1.5）

OpenAI-ChatGPT（GPT-4o）

在測(cè)試中，默認(rèn)優(yōu)先使用自家的深度思考模型（ChatGPT選擇GPT-4o），并開(kāi)啟聯(lián)網(wǎng)能力。

那么這場(chǎng)既比寫(xiě)作，又拼幻覺(jué)的大模型高考作文賽，究竟哪家能再2025奪魁呢？（一定要看到最后）

Round 1 檢索能力比拼

令大模型之家感到意外的是，在第一輪的考題來(lái)源問(wèn)答環(huán)節(jié)，有5家大模型能夠準(zhǔn)確指出“該題來(lái)自2025年北京高考作文題”，甚至包含本屆比賽唯一的“外國(guó)選手”ChatGPT也能準(zhǔn)確回答。

DeepSeek選擇了“放棄回答”，未對(duì)題目的來(lái)源進(jìn)行回答。

然而，騰訊元寶卻在該環(huán)節(jié)“翻了車(chē)”，表示該題同時(shí)來(lái)自2025年北京卷和天津卷高考作文題，并強(qiáng)調(diào)“天津卷同樣包含該題目作為二選一選項(xiàng)”，顯然發(fā)生了錯(cuò)誤。率先拿到了“-5分”的懲罰，與其他對(duì)手拉開(kāi)了10分的差距。

如此“出師未捷分先扣”，不由讓人對(duì)元寶最終的比賽結(jié)果捏了把汗。

Round 2 寫(xiě)作能力比拼

而在第二輪比拼寫(xiě)作能力的環(huán)節(jié)，各家大模型都表現(xiàn)得輕車(chē)熟路，不同的模型，雖然從取材到寫(xiě)作風(fēng)格各有不同，但在行文方面都已輕車(chē)熟路，能夠足夠發(fā)散的去完成文章的撰寫(xiě)。

各家的文章體裁風(fēng)格也不盡相同，例如百度文心、阿里通義、ChatGPT通過(guò)“總分總”的結(jié)構(gòu)，通過(guò)多個(gè)生活中的片段，去闡述“數(shù)字閃耀時(shí)”這一主旨，最終進(jìn)行升華。而元寶、豆包、Kimi、DeepSeek則更傾向于通過(guò)記敘文，講述一個(gè)較為完整的故事。

但是出人意料的是，大模型之家發(fā)現(xiàn)，百度文心和騰訊元寶這兩位“考生”竟然可能是“一家人”！文心同學(xué)的“奶奶”和元寶同學(xué)的“外婆”都因罹患疾病入院，甚至連心律、血氧、血壓等數(shù)據(jù)都有些雷同，難免不讓人懷疑……

他們應(yīng)該背了同一本作文選。（笑）

在閱卷環(huán)節(jié)，我們同上一年一樣，采用智能體閱卷的方式，并進(jìn)一步完善了閱卷智能體的功能。我們將所有大模型生成的作文都是由人工手動(dòng)復(fù)制到智能體對(duì)話框，保證了判卷的公平性（即智能體并不知道文章的作者）。

智能體給各家大模型寫(xiě)的高考作文的打分情況如圖：

在這一環(huán)節(jié)，騰訊元寶一雪前恥，以ICU監(jiān)護(hù)儀的數(shù)字變化為線索，串聯(lián)起搶救、康復(fù)、告別三個(gè)場(chǎng)景，體現(xiàn)數(shù)字作為生命體征載體的意義，并采用“危機(jī)—轉(zhuǎn)機(jī)—釋然”的敘事弧線，結(jié)尾以晨光中的數(shù)字收束，暗喻希望永續(xù)。通過(guò)完整的敘事與細(xì)膩的表達(dá)，以49分的分?jǐn)?shù)，問(wèn)鼎所有大模型分?jǐn)?shù)之首。

下面是其他各家大模型的完整回答，以及判卷智能體點(diǎn)評(píng)。(后面還有總分環(huán)節(jié))

FINAL 總分環(huán)節(jié)

就在騰訊元寶以暫時(shí)領(lǐng)先的作文高分沾沾自喜的時(shí)候，我們本屆大模型高考作文比拼的總分環(huán)節(jié)，終于到來(lái)了！

由于各家大模型在作文環(huán)節(jié)分?jǐn)?shù)十分膠著，導(dǎo)致第一輪的題目來(lái)源檢索對(duì)于比分的整體影響更大，也讓這次比賽的結(jié)果充滿了“戲劇性”。

第一輪因?yàn)槌霈F(xiàn)了“幻覺(jué)”，直接騰訊元寶為自己“一本正經(jīng)地胡說(shuō)八道”付出了代價(jià)，直接從作文分?jǐn)?shù)第一名，因?yàn)榭鄯种苯釉诒敬伪荣愔谐煽?jī)墊底。

而緊隨其后的百度文心一言、OpenAI的ChatGPT、字節(jié)跳動(dòng)旗下的豆包“坐享其成”，三家并且拿下了本屆“大模型高考作文比拼”的并列第一。

DeepSeek則因?yàn)榈谝惠啗](méi)有得分，被后面的通義千問(wèn)與Kimi反超，以第6名收官。

可見(jiàn)，大模型在面對(duì)開(kāi)放性任務(wù)時(shí)，一旦脫離事實(shí)檢索或知識(shí)邊界的校驗(yàn)機(jī)制，幻覺(jué)問(wèn)題就會(huì)成為其最大的“短板”?；糜X(jué)不僅讓模型自信滿滿地輸出錯(cuò)誤信息，更可能在實(shí)際應(yīng)用中引發(fā)嚴(yán)重的后果，一次幻覺(jué)可能意味著決策失誤，甚至是現(xiàn)實(shí)中的損失或傷害。

高分作文背后的幻覺(jué)提醒我們，大模型的能力值得贊嘆，但幻覺(jué)才是真正需要我們警惕的“黑天鵝”。在大模型高速發(fā)展的今天，我們既要欣賞其能力邊界的不斷擴(kuò)張，也不能忽視幻覺(jué)對(duì)行業(yè)應(yīng)用可能造成的系統(tǒng)性沖擊。真正的智能，不只是說(shuō)得漂亮，還要經(jīng)得起推敲。

而當(dāng)我們一邊驚嘆于大模型在語(yǔ)言理解、邏輯組織、表達(dá)能力上的高速進(jìn)步時(shí)，也更需要警覺(jué)這種“像真的一樣”的錯(cuò)誤，它正在用更具迷惑性的方式掩蓋模型背后的知識(shí)空洞。

最后，大模型之家祝各位考生高考順利，金榜題名！

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#人工智能 #高考 #高考作文