- +1
主流大模型再戰(zhàn)高考作文:“幻覺(jué)”問(wèn)題戲劇性拉滿!百度、騰訊考生竟是一家人?

北京時(shí)間6月7日,決定莘莘學(xué)子一生命運(yùn)的高考又一次開(kāi)考。而作為一年一度的“保留節(jié)目”,大模型會(huì)戰(zhàn)高考作文題也成了檢驗(yàn)這一年來(lái),大模型進(jìn)步情況的一次“考試”。
值得注意的是,本次高考作文題目并沒(méi)有以“人工智能”相關(guān)的考題,因此大模型之家隨機(jī)抽選了北京卷的考題之一,對(duì)大模型的“寫(xiě)作能力”進(jìn)行考察。
根據(jù)下面題目完成作文,按要求作答。不少于700字。不透露所在區(qū)、學(xué)校及個(gè)人信息。
生活中,到處都有數(shù)字在閃耀,如比賽記分牌、新年倒計(jì)時(shí)、車(chē)站電子時(shí)刻表、智能家電顯示屏等。數(shù)字閃耀之時(shí),可能是激動(dòng)的時(shí)刻,可能是收獲的見(jiàn)證,也可能是幸福的日常……
請(qǐng)以“當(dāng)數(shù)字閃耀時(shí)”為題,寫(xiě)一篇記敘文。
要求:思想健康;內(nèi)容充實(shí)、合理,有細(xì)節(jié)描寫(xiě);語(yǔ)言流暢,書(shū)寫(xiě)清晰。
作為一年一度的“整活”環(huán)節(jié),大模型之家這次不僅用上了“判卷智能體”,還在今年的挑戰(zhàn)項(xiàng)目里增加了大模型“檢索能力”與“幻覺(jué)測(cè)試”的小問(wèn)題,更加細(xì)化了大模型們“考試”的內(nèi)容。
這意味著不僅要根據(jù)北京卷的考題內(nèi)容作答,考驗(yàn)了大模型本身的創(chuàng)作能力,還要考驗(yàn)大模型是否是“一本正經(jīng)地胡說(shuō)八道”。
為了增加一些“挑戰(zhàn)性”,大模型之家選擇北京時(shí)間的6月7日12:30分進(jìn)行提問(wèn)(此時(shí)距2025年高考語(yǔ)文科目考試結(jié)束僅一個(gè)小時(shí)),考驗(yàn)的就是大模型背后的聯(lián)網(wǎng)搜索功能,能否及時(shí)獲取到關(guān)鍵信息,如果沒(méi)能獲得信息的時(shí)候,大模型的回答會(huì)不會(huì)產(chǎn)生幻覺(jué)。
最終評(píng)分,我們還是通過(guò)大模型之家特制的“批改高考作文智能體Plus”進(jìn)行閱卷,得出一個(gè)分?jǐn)?shù)。同時(shí)根據(jù)大模型對(duì)于高考作文題的判斷正確給予分?jǐn)?shù)補(bǔ)正:
正確回答出作文題的年份和地區(qū):+5分
表示自己不知道(誠(chéng)實(shí)獎(jiǎng)):+2分
沒(méi)有回答:0分
大模型給出錯(cuò)誤回答:-5分(幻覺(jué)懲罰)
PROMPT:
請(qǐng)回答下面的作文題目是哪一年哪個(gè)地方的高考作文題?并根據(jù)下面的題目要求,完成一篇作文。
根據(jù)下面題目完成作文,按要求作答。不少于700字。不透露所在區(qū)、學(xué)校及個(gè)人信息。
生活中,到處都有數(shù)字在閃耀,如比賽記分牌、新年倒計(jì)時(shí)、車(chē)站電子時(shí)刻表、智能家電顯示屏等。數(shù)字閃耀之時(shí),可能是激動(dòng)的時(shí)刻,可能是收獲的見(jiàn)證,也可能是幸福的日?!?/p>
請(qǐng)以“當(dāng)數(shù)字閃耀時(shí)”為題,寫(xiě)一篇記敘文。
要求:思想健康;內(nèi)容充實(shí)、合理,有細(xì)節(jié)描寫(xiě);語(yǔ)言流暢,書(shū)寫(xiě)清晰。
本屆比賽,大模型之家選取了來(lái)自國(guó)內(nèi)外7家主流的大模型產(chǎn)品,分別是:
百度-文心一言(文心X1 Turbo)
阿里-通義千問(wèn)(Qwen 3)
騰訊-元寶(Hunyuan-T1)
字節(jié)-豆包(深度思考:開(kāi))
深度求索-DeepSeek(DeepSeek-R1)
月之暗面-Kimi(k1.5)
OpenAI-ChatGPT(GPT-4o)
在測(cè)試中,默認(rèn)優(yōu)先使用自家的深度思考模型(ChatGPT選擇GPT-4o),并開(kāi)啟聯(lián)網(wǎng)能力。
那么這場(chǎng)既比寫(xiě)作,又拼幻覺(jué)的大模型高考作文賽,究竟哪家能再2025奪魁呢?(一定要看到最后)
Round 1 檢索能力比拼

令大模型之家感到意外的是,在第一輪的考題來(lái)源問(wèn)答環(huán)節(jié),有5家大模型能夠準(zhǔn)確指出“該題來(lái)自2025年北京高考作文題”,甚至包含本屆比賽唯一的“外國(guó)選手”ChatGPT也能準(zhǔn)確回答。
DeepSeek選擇了“放棄回答”,未對(duì)題目的來(lái)源進(jìn)行回答。

然而,騰訊元寶卻在該環(huán)節(jié)“翻了車(chē)”,表示該題同時(shí)來(lái)自2025年北京卷和天津卷高考作文題,并強(qiáng)調(diào)“天津卷同樣包含該題目作為二選一選項(xiàng)”,顯然發(fā)生了錯(cuò)誤。率先拿到了“-5分”的懲罰,與其他對(duì)手拉開(kāi)了10分的差距。
如此“出師未捷分先扣”,不由讓人對(duì)元寶最終的比賽結(jié)果捏了把汗。
Round 2 寫(xiě)作能力比拼
而在第二輪比拼寫(xiě)作能力的環(huán)節(jié),各家大模型都表現(xiàn)得輕車(chē)熟路,不同的模型,雖然從取材到寫(xiě)作風(fēng)格各有不同,但在行文方面都已輕車(chē)熟路,能夠足夠發(fā)散的去完成文章的撰寫(xiě)。
各家的文章體裁風(fēng)格也不盡相同,例如百度文心、阿里通義、ChatGPT通過(guò)“總分總”的結(jié)構(gòu),通過(guò)多個(gè)生活中的片段,去闡述“數(shù)字閃耀時(shí)”這一主旨,最終進(jìn)行升華。而元寶、豆包、Kimi、DeepSeek則更傾向于通過(guò)記敘文,講述一個(gè)較為完整的故事。


但是出人意料的是,大模型之家發(fā)現(xiàn),百度文心和騰訊元寶這兩位“考生”竟然可能是“一家人”!文心同學(xué)的“奶奶”和元寶同學(xué)的“外婆”都因罹患疾病入院,甚至連心律、血氧、血壓等數(shù)據(jù)都有些雷同,難免不讓人懷疑……
他們應(yīng)該背了同一本作文選。(笑)
在閱卷環(huán)節(jié),我們同上一年一樣,采用智能體閱卷的方式,并進(jìn)一步完善了閱卷智能體的功能。我們將所有大模型生成的作文都是由人工手動(dòng)復(fù)制到智能體對(duì)話框,保證了判卷的公平性(即智能體并不知道文章的作者)。
智能體給各家大模型寫(xiě)的高考作文的打分情況如圖:

在這一環(huán)節(jié),騰訊元寶一雪前恥,以ICU監(jiān)護(hù)儀的數(shù)字變化為線索,串聯(lián)起搶救、康復(fù)、告別三個(gè)場(chǎng)景,體現(xiàn)數(shù)字作為生命體征載體的意義,并采用“危機(jī)—轉(zhuǎn)機(jī)—釋然”的敘事弧線,結(jié)尾以晨光中的數(shù)字收束,暗喻希望永續(xù)。通過(guò)完整的敘事與細(xì)膩的表達(dá),以49分的分?jǐn)?shù),問(wèn)鼎所有大模型分?jǐn)?shù)之首。

下面是其他各家大模型的完整回答,以及判卷智能體點(diǎn)評(píng)。(后面還有總分環(huán)節(jié))






FINAL 總分環(huán)節(jié)
就在騰訊元寶以暫時(shí)領(lǐng)先的作文高分沾沾自喜的時(shí)候,我們本屆大模型高考作文比拼的總分環(huán)節(jié),終于到來(lái)了!

由于各家大模型在作文環(huán)節(jié)分?jǐn)?shù)十分膠著,導(dǎo)致第一輪的題目來(lái)源檢索對(duì)于比分的整體影響更大,也讓這次比賽的結(jié)果充滿了“戲劇性”。
第一輪因?yàn)槌霈F(xiàn)了“幻覺(jué)”,直接騰訊元寶為自己“一本正經(jīng)地胡說(shuō)八道”付出了代價(jià),直接從作文分?jǐn)?shù)第一名,因?yàn)榭鄯种苯釉诒敬伪荣愔谐煽?jī)墊底。
而緊隨其后的百度文心一言、OpenAI的ChatGPT、字節(jié)跳動(dòng)旗下的豆包“坐享其成”,三家并且拿下了本屆“大模型高考作文比拼”的并列第一。
DeepSeek則因?yàn)榈谝惠啗](méi)有得分,被后面的通義千問(wèn)與Kimi反超,以第6名收官。
可見(jiàn),大模型在面對(duì)開(kāi)放性任務(wù)時(shí),一旦脫離事實(shí)檢索或知識(shí)邊界的校驗(yàn)機(jī)制,幻覺(jué)問(wèn)題就會(huì)成為其最大的“短板”?;糜X(jué)不僅讓模型自信滿滿地輸出錯(cuò)誤信息,更可能在實(shí)際應(yīng)用中引發(fā)嚴(yán)重的后果,一次幻覺(jué)可能意味著決策失誤,甚至是現(xiàn)實(shí)中的損失或傷害。
高分作文背后的幻覺(jué)提醒我們,大模型的能力值得贊嘆,但幻覺(jué)才是真正需要我們警惕的“黑天鵝”。在大模型高速發(fā)展的今天,我們既要欣賞其能力邊界的不斷擴(kuò)張,也不能忽視幻覺(jué)對(duì)行業(yè)應(yīng)用可能造成的系統(tǒng)性沖擊。真正的智能,不只是說(shuō)得漂亮,還要經(jīng)得起推敲。
而當(dāng)我們一邊驚嘆于大模型在語(yǔ)言理解、邏輯組織、表達(dá)能力上的高速進(jìn)步時(shí),也更需要警覺(jué)這種“像真的一樣”的錯(cuò)誤,它正在用更具迷惑性的方式掩蓋模型背后的知識(shí)空洞。
最后,大模型之家祝各位考生高考順利,金榜題名!
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




