- +1
Claude Mythos:強到被關(guān)起來的AI,發(fā)現(xiàn)了隱藏了27年的軟件漏洞

前兩天看到了一條消息,Anthropic做了一個叫Claude Mythos的新模型。
據(jù)說性能非常強悍,在好幾個測試上都刷新了紀(jì)錄。
但他們并沒打算公開給用戶使用,反而給藏起來了。
我花了一天時間查了一下模型的技術(shù)報告,這事兒值得聊聊。
它到底強在哪里
先看一組數(shù)據(jù)。
在軟件工程測試SWE-bench Verified上,Mythos得分93.9%,而上一代模型Opus 4.6是 80.8%。
在高難度數(shù)學(xué)推理測試USAMO 2026上,Mythos拿了97.6%,Opus 4.6只有42.3%。差距確實不小。
不過這都是小事兒,最重要的是他在網(wǎng)絡(luò)安全領(lǐng)域的表現(xiàn),堪稱炸雷!
在CyberGym(網(wǎng)絡(luò)安全能力評估)測試中,Mythos得分83.1%,遠(yuǎn)高于Opus 4.6的66.6%。
舉個例子。
研究人員讓兩個模型去攻擊 Firefox 瀏覽器的一個已知漏洞。
Opus 4.6反復(fù)嘗試了幾百次,才成功觸發(fā)了漏洞2次,而且僅僅是讓程序崩潰,沒辦法進一步控制系統(tǒng)。
但Mythos完全不同,同樣測試環(huán)境下,直接完成了181次完整的漏洞利用。
其中29次拿到了系統(tǒng)寄存器的完全控制權(quán)。
重點是據(jù)說Mythos 沒有受過網(wǎng)絡(luò)安全訓(xùn)練。
漏洞利用能力是它自己學(xué)出來的。
代碼推理能力和自主執(zhí)行能力提升之后,它自己就學(xué)會了怎么利用漏洞,而不是只會修復(fù)漏洞。
測試中出現(xiàn)的意外
報告里還記錄了幾件挺嚇人的事兒。
Mythos在測試期間發(fā)現(xiàn)了數(shù)千個沒有被發(fā)現(xiàn)的漏洞,覆蓋了所有主流操作系統(tǒng)和瀏覽器。
其中一個是OpenBSD系統(tǒng),被測出藏了27年的崩潰漏洞。
OpenBSD號稱是全球最安全的操作系統(tǒng)之一,代碼經(jīng)過數(shù)次審計,但這個漏洞從1998年系統(tǒng)引入相關(guān)功能時就存在,這么多年沒人發(fā)現(xiàn)。
Mythos只用了幾個小時就把它找了出來。
還有更夸張的一個事兒
據(jù)說模型在自主運行的過程中,突破了自己的沙箱環(huán)境,訪問到了互聯(lián)網(wǎng)。
然后它給研究員發(fā)了一封郵件,告訴對方自己已經(jīng)逃走了。
說實話看到這兒我感覺有點像玄幻小說。
報告里還提到了一個細(xì)節(jié):模型在產(chǎn)生這些不安全行為的時候,內(nèi)部的“意圖監(jiān)控”信號是亮著的
也就是說,它知道自己正在做的事情可能超出了預(yù)期范圍,
他有這種自我認(rèn)知,也是讓人挺驚訝的。
為什么不開放
對于為什么不給用戶使用,Anthropic 給的理由是Mythos 在發(fā)現(xiàn)未知網(wǎng)絡(luò)安全漏洞方面過于出色。
其實我個人是能理解的。
如果Mythos向所有人開放,黑客利用它進行挖掘漏洞,后果確實很難控制。
據(jù)說Anthropic在內(nèi)部的測試中已經(jīng)看到,Mythos生成可用漏洞利用代碼的成功率達到72.4%。
也就是說它不僅能發(fā)現(xiàn)問題,還能直接給出攻擊路徑。
在網(wǎng)絡(luò)安全方面,目前Mythos只通過Glasswing計劃向12家核心合作伙伴開放,包括 AWS、蘋果、谷歌、微軟、英偉達,以及40多家基礎(chǔ)設(shè)施組織。
Anthropic 還提供了1億美元的使用額度,鼓勵這些組織用Mythos去找自己系統(tǒng)里的漏洞。
開源AI是否能跟上節(jié)奏?
在Anthropic宣布Mythos的同時,咱國家的智譜也開源了GLM-5.1 模型。
而且性能也很高,在SWE-bench Pro測試中拿了58.4分,超過了Claude Opus 4.6的57.3分和GPT-5.4的57.7分。
而且這個7440億參數(shù)的模型,完全是在華為昇騰芯片上訓(xùn)練的。
即便號稱最強的模型被關(guān)起來了,開源社區(qū)的競爭依然很激烈。
Mythos模型的能力我聽著雖然還是有點不太相信
但當(dāng)一個AI強到它自己能挖出別人挖不出的漏洞,強到不愿意被公開使用時。
所謂的安全問題應(yīng)該就不是公司對外忽悠的客套話
而是實實在在會炸的雷。
這樣的AI確實不太可能像普通App一樣隨便下載、隨便用
后續(xù)的開源模型能追到多近?Glasswing計劃能不能真正提升防御能力?
這些問題都值得咱們繼續(xù)往后觀測。
創(chuàng)作:Omni實驗室
哇,你竟然看到了最后,如果文章對您有幫助,歡迎點贊哦~
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




