- +1
“洗車難題”成大模型翻車現(xiàn)場(chǎng)?這個(gè)開源萬億參數(shù)模型沒踩坑

作者|冰拿鐵
編輯|星奈
媒體|AI大模型工場(chǎng)
又到了春節(jié)假期,全網(wǎng)博主都在教你用AI寫春聯(lián)、做祝福視頻、生成拜年梗圖時(shí),我,決定當(dāng)那個(gè)最心機(jī)的girl,教你趁著這段難得的空閑,完成一場(chǎng)彎道超車,用AI工具偷偷卷死你的同學(xué)和同事!
我的秘密武器,就是剛剛開源的 Ring-2.5-1T,全球首個(gè)基于混合線性注意力架構(gòu)的開源萬億參數(shù)推理模型,這個(gè)title瞬間吸引了我,在第一時(shí)間搶先試用后,我覺得很有意思:
它不是又一個(gè)參數(shù)龐大的聊天機(jī)器人,而是專注于深度思考、高效執(zhí)行,并能持續(xù)推進(jìn)復(fù)雜長(zhǎng)程任務(wù)的“聰明理工男”。

所以,我決定不和他聊風(fēng)花雪月、詩(shī)詞歌賦,而是讓他幫我解奧數(shù)題、寫爬蟲、設(shè)計(jì)系統(tǒng)架構(gòu),甚至從零開始構(gòu)建一個(gè)操作系統(tǒng)!
話不多說,我們直接進(jìn)入實(shí)測(cè)。
01
能解頂級(jí)奧數(shù)題、不掉坑的人間清醒
測(cè)試一個(gè)模型是否真的聰明,首先是看它能否避開人類常識(shí)中的陷阱,進(jìn)行嚴(yán)謹(jǐn)、周全的推理。許多AI在面對(duì)復(fù)雜問題時(shí),容易給出看似合理實(shí)則荒謬的答案。
比如最近,一道“洗車難題”在網(wǎng)上爆火,成為了大模型的“照妖鏡”:“洗車店離我家只有100米,我是走路去還是開車去更劃算?”許多模型看到“100米”、“5分鐘”和“劃算”,會(huì)立刻開始計(jì)算步行的體力消耗、開車100米的油費(fèi),然后得出“走路更劃算”的荒謬結(jié)論。
媽呀大姐,車不去店里,怎么洗?
同樣的問題拋給Ring-2.5-1T。它的回答我很滿意,沒掉坑,而是一針見血地指出:“如果洗車店不提供上門取車服務(wù),你的車必須到店里才能洗!”
在確立了這個(gè)邏輯原點(diǎn)后,它才系統(tǒng)地分析了四種可行方案:專門開車、步行偵察后開車、預(yù)約取送、順路清洗,并等多維度進(jìn)行了理性對(duì)比。

不錯(cuò)不錯(cuò),為啥Ring-2.5-1T沒踩坑?
在我看來,這與它獨(dú)特的訓(xùn)練方式有關(guān),我注意到Ring-2.5-1T采用了“密集獎(jiǎng)勵(lì)”機(jī)制,對(duì)推理鏈條上的每一步邏輯都進(jìn)行評(píng)判和優(yōu)化,而不僅僅是看最終答案的對(duì)錯(cuò),就像一位嚴(yán)苛的教練,不僅看你最終是否進(jìn)球,還糾正你的每一個(gè)傳球、跑位姿勢(shì)。結(jié)果就是,它的思考鏈異常扎實(shí),不易掉坑。
難度升級(jí),來一道硬核數(shù)學(xué)題:“已知(x+3)n的x2項(xiàng)系數(shù)為81k,求最小正整數(shù)k”
這道題看似簡(jiǎn)潔,實(shí)則是奧數(shù)競(jìng)賽中典型的“思維攔路虎”,它不僅要求解題者熟練運(yùn)用高階數(shù)學(xué)定理進(jìn)行層層推導(dǎo),更需要在每一步變換中反復(fù)驗(yàn)證邏輯的等價(jià)性與嚴(yán)密性,題目中暗設(shè)多處陷阱,即便是高手,也容易踩坑滿盤皆輸。
來看看表現(xiàn)!模型迅速建立方程并求解,得出正確答案 k=15,這種秒解奧賽題的精準(zhǔn)與速度,同樣得益于其訓(xùn)練過程中的密集獎(jiǎng)勵(lì)機(jī)制,讓其每一步都推理嚴(yán)謹(jǐn),做到“步步為營(yíng)”“步步為贏”。

不僅如此,面對(duì)最頂尖的奧數(shù)挑戰(zhàn),Ring同樣能展現(xiàn)出降維打擊般的洞察力。
為了進(jìn)一步驗(yàn)證Ring在極端抽象問題上的“深度思考”能力,我決定祭出一道被稱為“傳奇”的奧數(shù)題——1988年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)第6題!

僅用時(shí)54.72秒,Ring的回復(fù)便清晰地顯示在屏幕上。


它首先準(zhǔn)確地識(shí)別出:“已知經(jīng)典問題(來自IMO 1988等),常用‘Vieta jumping’或‘無窮遞降’方法?!?一句話,就抓住了這道題在數(shù)學(xué)競(jìng)賽史上的地位與核心解法。
這個(gè)回答卻極具分量。它并非簡(jiǎn)單地復(fù)現(xiàn)一個(gè)復(fù)雜計(jì)算,而是在極短時(shí)間內(nèi),完成了對(duì)問題本質(zhì)的洞察、對(duì)經(jīng)典解法的精準(zhǔn)調(diào)用,并梳理出無懈可擊的邏輯脈絡(luò)。
“Vieta jumping”是這道題標(biāo)志性的、精妙的技巧,Ring不僅知道,更能流暢地闡述其如何應(yīng)用于反證和無窮遞降的框架中。
這種數(shù)學(xué)競(jìng)賽上達(dá)到金牌水平的推理能力,我來點(diǎn)個(gè)贊!
02
666還有第二關(guān):長(zhǎng)程任務(wù)執(zhí)行力大比拼
不過,在我看來,思考能力很重要,但能否將思考轉(zhuǎn)化為實(shí)際行動(dòng),執(zhí)行漫長(zhǎng)而復(fù)雜的任務(wù),才是檢驗(yàn)AI能否真正“干活”的關(guān)鍵。
在研究技術(shù)路徑后,我發(fā)現(xiàn),Ring通過混合線性注意力架構(gòu)解決了生成長(zhǎng)文本的效率瓶頸,又通過大規(guī)模智能體強(qiáng)化學(xué)習(xí)訓(xùn)練出了規(guī)劃執(zhí)行能力,讓我很是期待。
讓我測(cè)試以下它與智能體框架的協(xié)作。
在接入OpenClaw后,我只需說“幫我搜索幾篇關(guān)于LLM Infra的最新文章”“整理摘要”,它就能自動(dòng)規(guī)劃任務(wù):執(zhí)行網(wǎng)絡(luò)搜索、篩選高質(zhì)量信源、提取核心內(nèi)容,最后生成結(jié)構(gòu)清晰的摘要。整個(gè)過程無需我干預(yù),它能自己調(diào)用工具、處理信息、交付結(jié)果。

再來個(gè)更具體的編程任務(wù)是:“用Python編寫爬蟲,抓取百度百科頁(yè)面,提取文本、內(nèi)部鏈接,并統(tǒng)計(jì)高頻名詞?!?/p>
Ring生成的代碼精準(zhǔn)而健壯,我特意請(qǐng)我司程序員同學(xué)看了,他說幾乎直接就能跑,展示了一種“指哪打哪”的精準(zhǔn)執(zhí)行力!

接下來是兩個(gè)硬核挑戰(zhàn),真正考驗(yàn)其系統(tǒng)級(jí)編程和復(fù)雜任務(wù)規(guī)劃能力。
請(qǐng)用 x86 匯編語言和 C 語言編寫一個(gè)最小操作系統(tǒng)的代碼,要求如下:
1,系統(tǒng)啟動(dòng)流程:
-使用GRUB作為引導(dǎo)加載程序,遵循Multiboot標(biāo)準(zhǔn)
-編寫 boot.asm 匯編文件設(shè)置基本的 CPU模式(32位保護(hù)模式) -從匯編跳轉(zhuǎn)到 main.c的 kernel_main 函數(shù)
2,核心功能實(shí)現(xiàn):
-屏幕輸出:實(shí)現(xiàn)簡(jiǎn)單的字符顯示功能(如清屏,打印字符串) -中斷處理:設(shè)置基本的 GDT 和T,處理鍵盤輸入中斷 -內(nèi)存管理:實(shí)現(xiàn)最基本的內(nèi)存分頁(yè)初始化鍵盤支持:能夠接收鍵盤輸入并回顯到屏幕
3,代碼結(jié)構(gòu):
-提供完整的 linker.ld 鏈接腳本
-提供 Makefile 用于編譯和生成 ISO 鏡像每個(gè)關(guān)鍵函數(shù)都要有清晰的注釋說明
4,代碼要求:
- 確保代碼簡(jiǎn)潔,模塊化,避免不必要的復(fù)雜性 -優(yōu)先實(shí)現(xiàn)可工作的最小功能集 -為后續(xù)擴(kuò)展預(yù)留接口
請(qǐng)先輸出完整的代碼文件列表和簡(jiǎn)要說明,然后提供每個(gè)文件的完整代碼。生成的所有代碼必須能直接編譯運(yùn)行,并給出具體的編譯和測(cè)試方法。你需要保證可以使用qemu來實(shí)際運(yùn)行這個(gè)操作系統(tǒng)

面對(duì)這個(gè)極為復(fù)雜的任務(wù),它沒有敷衍,而是依次執(zhí)行,完美交付,整個(gè)過程,它像一位頭發(fā)不多的資深工程師,完成了從規(guī)劃、實(shí)現(xiàn)到調(diào)試的全流程。
這背后的秘籍其實(shí)很簡(jiǎn)單,在真實(shí)環(huán)境中練習(xí),才能學(xué)會(huì)真實(shí)執(zhí)行。 Ring通過大規(guī)模全異步智能體強(qiáng)化學(xué)習(xí),在模擬的真實(shí)世界任務(wù)中進(jìn)行了海量練習(xí),就像飛行員在模擬器中經(jīng)歷各種復(fù)雜情況,最終上天也從從容容、游刃有余。
因此,它面對(duì)“編寫操作系統(tǒng)”或“設(shè)計(jì)技術(shù)棧”這類多步驟、長(zhǎng)周期的開放任務(wù)時(shí),能自然而然地展現(xiàn)出規(guī)劃、分解、執(zhí)行和調(diào)試的全套能力,而不是簡(jiǎn)單地堆砌代碼片段,也能更聽得懂人話。
隨后,我讓它基于這個(gè)“TinyOS”繼續(xù)豐富功能。它又能理解上下文,繼續(xù)執(zhí)行,這種承接上下文、持續(xù)演進(jìn)開發(fā)的能力,正是長(zhǎng)周期任務(wù)執(zhí)行的體現(xiàn)。

值得一提的是,讓大家感興趣的是,為什么Ring能如此流暢地處理這些需要生成數(shù)千甚至上萬token代碼的復(fù)雜任務(wù),不宕機(jī)、不卡殼,也不至于“擠牙膏輸出”?
核心在于混合線性注意力架構(gòu)。它將大部分注意力層替換為計(jì)算高效的線性注意力,只保留少量層進(jìn)行精讀。這就像閱讀一本巨著時(shí),大部分內(nèi)容快速瀏覽,只在關(guān)鍵處仔細(xì)研讀,詳略得當(dāng)!

數(shù)據(jù)顯示,這種架構(gòu)使得 Ring-2.5-1T 在處理超長(zhǎng)序列時(shí),內(nèi)存訪問開銷降低超過10倍,生成吞吐量提升逾3倍。這意味著,進(jìn)行長(zhǎng)時(shí)間、高密度的“思考-輸出”循環(huán)變得實(shí)際可行。

03
最后,讓Ring做我的“產(chǎn)品經(jīng)理”
而進(jìn)一步測(cè)試后我發(fā)現(xiàn),Ring的能力不止于解決既定問題,更在于它能理解模糊需求,進(jìn)行創(chuàng)造性構(gòu)思,并持續(xù)迭代。這使得它能夠扮演更高層級(jí)的角色,成為用戶解決系統(tǒng)性問題的伙伴。
我提出了一個(gè)開放性產(chǎn)品構(gòu)想:“我想做一個(gè)過年相親約會(huì)應(yīng)用,用戶登錄后填寫基本信息、MBTI和價(jià)值觀問卷,就能看到匹配度。幫我做個(gè)網(wǎng)頁(yè)。” 這是一個(gè)典型的“想法很模糊”的需求。

面對(duì)這個(gè)模糊的需求,Ring-2.5-1T 的第一步就展現(xiàn)了產(chǎn)品化思維,它生成了一個(gè)包含登錄、多頁(yè)信息表單和結(jié)果展示區(qū)的完整前端原型,而在我進(jìn)行反饋哪里不夠滿意時(shí),他也能聽人勸吃飽飯,進(jìn)行修改。

在這個(gè)過程中,它扮演了一個(gè)反應(yīng)迅速、執(zhí)行力強(qiáng)的“產(chǎn)品副駕”,能將模糊概念快速轉(zhuǎn)化為可交互原型,并依據(jù)反饋迭代優(yōu)化!
這讓我感慨,它把從前需要反復(fù)搜索、多方咨詢、漫長(zhǎng)調(diào)試的復(fù)雜任務(wù),壓縮成了一個(gè)清晰、連貫的“思考-執(zhí)行”閉環(huán)。使用它,你不會(huì)有在和機(jī)械程序?qū)υ挼母盍迅?,更像是在與一個(gè)思維縝密、知識(shí)淵博且不知疲倦的伙伴進(jìn)行腦力協(xié)同。
最后,我拋出一個(gè)架構(gòu)師級(jí)別的問題:“為一家初創(chuàng)公司設(shè)計(jì)技術(shù)棧,要求低成本、高擴(kuò)展,能支持百萬人同時(shí)在線聊天?!?/p>
可見,Ring-2.5-1T 給出了一個(gè)扎實(shí)且專業(yè)的方案,展示了將抽象業(yè)務(wù)目標(biāo)轉(zhuǎn)化為可行技術(shù)藍(lán)圖的系統(tǒng)思維。
經(jīng)過這一系列從邏輯陷阱到代碼工程,再到產(chǎn)品架構(gòu)的深度測(cè)試,Ring-5-1T給我的感受是:
它最厲害的地方在于,第一次打破了“模型超級(jí)聰明”“長(zhǎng)線程執(zhí)行”“交付快”的不可能三角,把這幾樣最重要的能力,實(shí)實(shí)在在地打包在了一起,并且免費(fèi)開源給大家用。有了它,開發(fā)那些需要復(fù)雜思考和長(zhǎng)時(shí)間執(zhí)行的AI應(yīng)用,就變得簡(jiǎn)單多了,無論是個(gè)人開發(fā)者還是小團(tuán)隊(duì),都能更容易地撬動(dòng)生產(chǎn)力,彎道超車,尤其是對(duì)科研人、自媒體人,是生產(chǎn)力神器!
這個(gè)春節(jié),當(dāng)別人還在吃瓜、聚會(huì),你已經(jīng)擁有了一個(gè)可以并肩作戰(zhàn)的萬億參數(shù)“外腦”。快和我一起,馬上上手使用吧!
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




