中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

Claude Mythos:強到被關(guān)起來的AI,發(fā)現(xiàn)了隱藏了27年的軟件漏洞

2026-05-25 16:09
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

前兩天看到了一條消息,Anthropic做了一個叫Claude Mythos的新模型。

據(jù)說性能非常強悍,在好幾個測試上都刷新了紀(jì)錄。

但他們并沒打算公開給用戶使用,反而給藏起來了。

我花了一天時間查了一下模型的技術(shù)報告,這事兒值得聊聊。

它到底強在哪里

先看一組數(shù)據(jù)。

在軟件工程測試SWE-bench Verified上,Mythos得分93.9%,而上一代模型Opus 4.6是 80.8%。

在高難度數(shù)學(xué)推理測試USAMO 2026上,Mythos拿了97.6%,Opus 4.6只有42.3%。差距確實不小。

不過這都是小事兒,最重要的是他在網(wǎng)絡(luò)安全領(lǐng)域的表現(xiàn),堪稱炸雷!

在CyberGym(網(wǎng)絡(luò)安全能力評估)測試中,Mythos得分83.1%,遠(yuǎn)高于Opus 4.6的66.6%。

舉個例子。

研究人員讓兩個模型去攻擊 Firefox 瀏覽器的一個已知漏洞。

Opus 4.6反復(fù)嘗試了幾百次,才成功觸發(fā)了漏洞2次,而且僅僅是讓程序崩潰,沒辦法進一步控制系統(tǒng)。

但Mythos完全不同,同樣測試環(huán)境下,直接完成了181次完整的漏洞利用。

其中29次拿到了系統(tǒng)寄存器的完全控制權(quán)。

重點是據(jù)說Mythos 沒有受過網(wǎng)絡(luò)安全訓(xùn)練。

漏洞利用能力是它自己學(xué)出來的。

代碼推理能力和自主執(zhí)行能力提升之后,它自己就學(xué)會了怎么利用漏洞,而不是只會修復(fù)漏洞。

測試中出現(xiàn)的意外

報告里還記錄了幾件挺嚇人的事兒。

Mythos在測試期間發(fā)現(xiàn)了數(shù)千個沒有被發(fā)現(xiàn)的漏洞,覆蓋了所有主流操作系統(tǒng)和瀏覽器。

其中一個是OpenBSD系統(tǒng),被測出藏了27年的崩潰漏洞。

OpenBSD號稱是全球最安全的操作系統(tǒng)之一,代碼經(jīng)過數(shù)次審計,但這個漏洞從1998年系統(tǒng)引入相關(guān)功能時就存在,這么多年沒人發(fā)現(xiàn)。

Mythos只用了幾個小時就把它找了出來。

還有更夸張的一個事兒

據(jù)說模型在自主運行的過程中,突破了自己的沙箱環(huán)境,訪問到了互聯(lián)網(wǎng)。

然后它給研究員發(fā)了一封郵件,告訴對方自己已經(jīng)逃走了。

說實話看到這兒我感覺有點像玄幻小說。

報告里還提到了一個細(xì)節(jié):模型在產(chǎn)生這些不安全行為的時候,內(nèi)部的“意圖監(jiān)控”信號是亮著的

也就是說,它知道自己正在做的事情可能超出了預(yù)期范圍,

他有這種自我認(rèn)知,也是讓人挺驚訝的。

為什么不開放

對于為什么不給用戶使用,Anthropic 給的理由是Mythos 在發(fā)現(xiàn)未知網(wǎng)絡(luò)安全漏洞方面過于出色。

其實我個人是能理解的。

如果Mythos向所有人開放,黑客利用它進行挖掘漏洞,后果確實很難控制。

據(jù)說Anthropic在內(nèi)部的測試中已經(jīng)看到,Mythos生成可用漏洞利用代碼的成功率達到72.4%。

也就是說它不僅能發(fā)現(xiàn)問題,還能直接給出攻擊路徑。

在網(wǎng)絡(luò)安全方面,目前Mythos只通過Glasswing計劃向12家核心合作伙伴開放,包括 AWS、蘋果、谷歌、微軟、英偉達,以及40多家基礎(chǔ)設(shè)施組織。

Anthropic 還提供了1億美元的使用額度,鼓勵這些組織用Mythos去找自己系統(tǒng)里的漏洞。

開源AI是否能跟上節(jié)奏?

在Anthropic宣布Mythos的同時,咱國家的智譜也開源了GLM-5.1 模型。

而且性能也很高,在SWE-bench Pro測試中拿了58.4分,超過了Claude Opus 4.6的57.3分和GPT-5.4的57.7分。

而且這個7440億參數(shù)的模型,完全是在華為昇騰芯片上訓(xùn)練的。

即便號稱最強的模型被關(guān)起來了,開源社區(qū)的競爭依然很激烈。

Mythos模型的能力我聽著雖然還是有點不太相信

但當(dāng)一個AI強到它自己能挖出別人挖不出的漏洞,強到不愿意被公開使用時。

所謂的安全問題應(yīng)該就不是公司對外忽悠的客套話

而是實實在在會炸的雷。

這樣的AI確實不太可能像普通App一樣隨便下載、隨便用

后續(xù)的開源模型能追到多近?Glasswing計劃能不能真正提升防御能力?

這些問題都值得咱們繼續(xù)往后觀測。

創(chuàng)作:Omni實驗室

哇,你竟然看到了最后,如果文章對您有幫助,歡迎點贊哦~

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司