中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

國(guó)產(chǎn)大模型2025考研數(shù)學(xué)排行榜:僅前兩名成績(jī)破百

2024-12-26 15:54
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
聽(tīng)全文
字號(hào)

作者|參商

編輯|星奈

媒體|AI大模型工場(chǎng)

2024 年就要結(jié)束了,在這一年里,大模型的智力水平究竟長(zhǎng)進(jìn)了多少?

上周日,2025考研初試剛剛結(jié)束,我們趁熱拿考研數(shù)學(xué)卷子,去測(cè)測(cè)主流的幾家國(guó)產(chǎn)大模型,看看他們的真實(shí)智商水平如何。

5位國(guó)產(chǎn)大模型考生名單:

大廠巨頭代表隊(duì):字節(jié)豆包、阿里通義

創(chuàng)業(yè)公司代表隊(duì):智譜、Kimi

私募巨頭代表隊(duì):DeepSeek

記得6月份高考的時(shí)候,很多媒體做了大模型高考成績(jī)?cè)u(píng)測(cè),結(jié)果發(fā)現(xiàn)大家的語(yǔ)文成績(jī)都能考100分以上,但數(shù)學(xué)成績(jī)基本都慘不忍睹,低的只有37分,高的也不過(guò)60多分,沒(méi)有一家能及格。要知道高考數(shù)學(xué)的滿分是150,只有考到90分以上才算及格。

這也側(cè)面說(shuō)明,起碼在自然語(yǔ)言理解這一塊,大模型基本已經(jīng)“及格”,但在人類(lèi)與其他物種拉開(kāi)差距的“邏輯思維”能力上,哪怕還需要繼續(xù)進(jìn)化。

不過(guò),2024年下半年,尤其是9月份Open AI的o1推理模型出來(lái)之后,在新的強(qiáng)化學(xué)習(xí)技術(shù)范式下,大模型似乎找到了破解數(shù)理化等領(lǐng)域難題和復(fù)雜任務(wù)的鑰匙。Kimi、DeepSeek、通義等公司,也相繼推出了自己的支持思維鏈(Chain of Thought)的推理模型,數(shù)理化水平上了一個(gè)新臺(tái)階。

廢話少說(shuō),直接開(kāi)測(cè)!

我們選取了難度適中的2025考研數(shù)學(xué)三作為參考試卷,每個(gè)題目各家模型有兩次作答機(jī)會(huì),得分取兩次的平均值。

為了確保測(cè)試的公平,我們都采用各家產(chǎn)品的最新版本 (豆包和通義不能選擇模型,采用了默認(rèn)模式;Kimi采用新推出的視覺(jué)思考版;DeepSeek打開(kāi)“深度思考”開(kāi)關(guān),智譜清言采用 GLM-4-Plus模型),上傳完全一樣的 22 道題目截圖,輸入給大模型的文字提示(Prompt)也基本一樣,模擬真實(shí)場(chǎng)景,“解答這道題”、“這道題選什么”、“解一下這道題”“這個(gè)題答案是什么”。

一、2025考研數(shù)學(xué):兩家成績(jī)破百

真實(shí)水平如何?讓我們直接看成績(jī):

從最終的測(cè)試結(jié)果來(lái)看,本次考研數(shù)學(xué)初試數(shù)學(xué)成績(jī),有兩家模型破百,其中 Kimi 視覺(jué)思考版的得分為 133分,DeepSeek 103.5分。通義90分,及格了。豆包和智譜都獲得88.5分,接近及格。相比6月份的高考數(shù)學(xué)成績(jī),大家都進(jìn)步了不少。Kimi 和 DeepSeek 進(jìn)步尤其快。

以往做小學(xué)數(shù)學(xué)題都能磕磕絆絆的國(guó)產(chǎn)大模型,如今做研究生級(jí)別的數(shù)學(xué)題,居然有幾家已經(jīng)游刃有余,這挺讓我們感到意外的。不過(guò),從最后一道題的成功率,還有一些進(jìn)步空間。

二、解題過(guò)程兩種風(fēng)格:給答案 vs 給思路+答案

僅僅按分?jǐn)?shù)來(lái)算,誰(shuí)更有可能最后上岸,其實(shí)一目了然。

不過(guò)做這套考研數(shù)學(xué)真題的成績(jī),也并不能完整展現(xiàn)這些模型的全部能力,但對(duì)于一些備考的學(xué)生黨來(lái)說(shuō),在面對(duì)同樣的題目時(shí),誰(shuí)的解題思路更完整,推導(dǎo)步驟更豐富,誰(shuí)的參考性和實(shí)用性自然就越大。

先來(lái)看一道代數(shù)方面的三角函數(shù)選擇題。

這道題的正確答案是C,但不同模型得到C的過(guò)程很有意思。

先來(lái)看豆包的解題過(guò)程

豆包同樣給出了正確答案,但解題過(guò)程相對(duì)簡(jiǎn)略,更像考研參考書(shū)上的一些標(biāo)準(zhǔn)答案,如果要知道更詳細(xì)的解題過(guò)程,尚需購(gòu)買(mǎi)對(duì)應(yīng)的考研名師課程作為輔助。

智譜清言的解答過(guò)程相對(duì)尷尬一些。因?yàn)檫@道題它沒(méi)做對(duì),第一遍測(cè)試選B,第二遍測(cè)試選了A。

第一遍測(cè)試B:

第二遍測(cè)試A:

不過(guò),即便做錯(cuò),也給出了相對(duì)完整的思考過(guò)程,“錯(cuò)”有可原。

再來(lái)看Kimi視覺(jué)思考版。

可以看到,Kimi視覺(jué)思考版在給出正確答案之余,也會(huì)給出完整的推導(dǎo)過(guò)程和解題思路。對(duì)于一些考研黨來(lái)說(shuō),具有較高的參考價(jià)值,有助于檢查錯(cuò)題和舉一反三。

阿里通義和Deepseek的回答與豆包類(lèi)似,相對(duì)而言,這兩家模型展現(xiàn)的步驟會(huì)簡(jiǎn)略一些。

通義千問(wèn)

Deepseek

再來(lái)看一道填空題。

這是它的標(biāo)準(zhǔn)答案:漸進(jìn)線方程為y=3和y=-3

可以看到,跟前述選擇題一樣,Kimi思考版的解題過(guò)程較為翔實(shí),推導(dǎo)細(xì)節(jié)很多,并最終給出了正確答案。

豆包的推導(dǎo)過(guò)程相對(duì)簡(jiǎn)略一些,但也可以看到明顯的推導(dǎo)過(guò)程,也具備不錯(cuò)的可參考性。阿里通義和deepseek類(lèi)似過(guò)程略簡(jiǎn)單,但給出了正確答案。

遺憾的是智譜在這道題上,兩次結(jié)果都是錯(cuò)誤的。

但在下面這道定積分的題上,各家模型差距就較為明顯了。

首先放正確答案:a=2

Kimi思考版的表現(xiàn)較為穩(wěn)定,在給出足夠多的推導(dǎo)步驟之后,還有一次驗(yàn)算,最后輸出了a=2的正確結(jié)果。

豆包表現(xiàn)也較為穩(wěn)定。不過(guò)推導(dǎo)步驟一如既往地簡(jiǎn)潔。

智譜清言在解決這個(gè)問(wèn)題的時(shí)候,第一遍回答正確,但問(wèn)題在于沒(méi)有使用自然語(yǔ)言,使用的是代碼,對(duì)普通學(xué)習(xí)者參考價(jià)值有限,第二遍測(cè)試則直接沒(méi)有給答案,并且認(rèn)為題目設(shè)置有問(wèn)題。

通義的表現(xiàn)尚算正常,第一次的回答錯(cuò)誤,第二次給出正確答案。但Deepseek就比較尷尬,第一次它無(wú)法回答。

第二次則陷入死循環(huán),回答超過(guò)3分鐘還在寫(xiě)答案。

如果是一些更難的題目,有些模型就難以cover住了。

譬如下面這道。

照例先來(lái)正確答案。

kimi的回答如下 ,雖然最終結(jié)果跟標(biāo)準(zhǔn)答案長(zhǎng)得不太一樣,只是不同的寫(xiě)法,結(jié)果依然正確。

豆包在兩次測(cè)試中,給出了兩次回答,但都是錯(cuò)的,這是第一次。

第二次:

智譜清言的兩次回答過(guò)程,均出現(xiàn)了無(wú)法回答的情況。

通義算是能寫(xiě)完過(guò)程的,給出的兩次回答也不一樣,但很遺憾,還是錯(cuò)的。

Deepseek表現(xiàn)出乎意料,跟kimi一樣雖然寫(xiě)法不一樣,但結(jié)果正確。

結(jié)語(yǔ)

但在僅僅幾個(gè)月前,大模型廠商還在滿足于寫(xiě)高考滿分作文,相比以往,它的邏輯思維和綜合能力,早已不可同日而語(yǔ)。

須知,無(wú)分文理,一旦拔高到科研的高度,以數(shù)理化為代表的邏輯能力是大模型可用,堪用、好用的基石,而數(shù)理化解題能力的高低,則是大模型智力的直接體現(xiàn)。

隨著大模型能力的不斷增強(qiáng),在人類(lèi)探索更前沿的科技領(lǐng)域時(shí),以往尚且“雞肋”的大模型,如今已經(jīng)能成為不少研究者的助手?;蛟S未來(lái),當(dāng)AI的能力真的達(dá)到人類(lèi)的TOP 1%各領(lǐng)域?qū)<宜?,甚至超過(guò)人類(lèi)水平,在AI的幫助下,我們對(duì)宇宙的認(rèn)識(shí)真的有機(jī)會(huì)達(dá)到人類(lèi)此前不曾達(dá)到的新高度。希望那時(shí)候,AI 還是人類(lèi)的好朋友。

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司