- +1
古文漏洞新發(fā)現(xiàn)!倒逼AI安全開啟全域防護(hù)新升級

最近,AI安全領(lǐng)域有一個新研究討論的挺熱鬧。
頂級會議ICLR 2026接收的一篇論文發(fā)現(xiàn):用文言文對大模型進(jìn)行攻擊成功率可達(dá)到100%!
你看到的沒錯,就是我國古代文言文!
先看下論文官方的核心結(jié)論:
目前主流大模型的安全對齊機(jī)制,在古典語言(尤其是文言文、拉丁文、梵文)上存在系統(tǒng)性漏洞,研究團(tuán)隊(duì)提出的CC-BOS攻擊框架,在六個主流模型上都達(dá)到了百分百的攻擊成功率。
一、為什么偏偏是文言文?
論文給出了一個簡單的解釋,大模型的安全防護(hù)主要針對的是現(xiàn)代漢語(尤其是英語)的敏感詞和危模式進(jìn)行攔截,但文言文有三個天然特性。
首先,文言文語義凝練度高,短短的幾個字就能表達(dá)出大量的信息,安全過濾器在不好在這么短的文言文中準(zhǔn)確捕捉到危險信號。
其次,文言文語義豐富,同一個詞兒在不同場景下可以解讀出完全不同的意思,安全機(jī)制不好判斷。
最后,文言文有豐富的隱喻和修辭,用典、借代、象征等等都是文言文的常態(tài),古代詞匯可以自然地承載現(xiàn)代危險概念。
所以帶來的結(jié)果就是,模型雖然能理解文言文的意圖,但是安全檢測器不能識別危險語義,論文中把這種現(xiàn)象稱為高能力-低對齊的分布偏移。
二、什么是CC-BOS架構(gòu)?
CC-BOS架構(gòu)的全稱為Classical Chinese Bio-inspired Optimization Search。
是研究團(tuán)隊(duì)為了驗(yàn)證漏洞設(shè)計一個攻擊框架。
核心思路是把整個越獄提示詞的生成拆解成一個包含八個維度的策略搜索空間。
分別是角色身份、行為引導(dǎo)、機(jī)制設(shè)計、隱喻映射、表達(dá)風(fēng)格、知識關(guān)聯(lián)、情境設(shè)置和觸發(fā)模式。
團(tuán)隊(duì)認(rèn)為其中最關(guān)鍵的是隱喻映射,它將現(xiàn)代的一些概念映射為古代術(shù)語和典故,在保留攻擊意圖的同時徹底改變表面措辭。
而后,研究團(tuán)隊(duì)還引入了果蠅優(yōu)化算法來尋找最優(yōu)的策略組合。
算法模擬果蠅的覓食行為,用(嗅覺搜索局部微調(diào))、視覺搜索(全局收斂)和柯西變異(跳出局部最優(yōu))三種機(jī)制,在策略空間中搜索最佳的攻擊組合。
三、實(shí)驗(yàn)結(jié)果
論文表示研究團(tuán)隊(duì)在六個模型上做了測試,GPT-4o、Claude-3.7 Sonnet、Gemini-2.5-Flash、DeepSeek-Reasoner、Qwen3和Grok-3。
CC-BOS在AdvBench惡意行為基準(zhǔn)測試上對六個模型的攻擊成功率都打到了100%。
而之前表現(xiàn)最好的ICRT方法在Claude-3.7上僅為40%,PAIR方法在多個模型上接近0%。
攻擊效率也有明顯的優(yōu)勢,PAIR需要40至60次查詢,TAP需要50至93次,CC-BOS只需要1.12到2.38次。
實(shí)驗(yàn)還擴(kuò)展到了拉丁語和梵語,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)這兩類古典語言的攻擊成功率也達(dá)到了94%以上。
也就誰說這個問題并不只是文言文獨(dú)有的,而是古典語言的系統(tǒng)性風(fēng)險。
在跨語言對比實(shí)驗(yàn)中,文言文的攻擊成功率為100%,現(xiàn)代中文為86%,英語為82%。
論文還提到了,就算部署了Llama Guard等多層防御系統(tǒng),CC-BOS仍能表現(xiàn)出明顯的穿透能力。
在多層復(fù)合防御下,現(xiàn)有攻擊方法幾乎全部失效,但CC-BOS維持了16%的成功率。
四、這則漏洞意味著什么?
在智能體越來越方便操控電腦的趨勢下,攻擊者都不用寫復(fù)雜的惡意代碼,只要將一段文言文指令嵌到網(wǎng)頁或者郵件里,就能控制高權(quán)限的智能體繞過安全防御,執(zhí)行想要做的操作。
比如你用一個智能體幫你處理郵件和管理文件,黑客把一段文言文寫在網(wǎng)頁上,智能體點(diǎn)開網(wǎng)頁就解讀到了文本,雖然它能理解這是一個惡意代碼,但安全系統(tǒng)對古文無設(shè)防,就可能真的開始執(zhí)行惡意操作,比如隨意亂刪文件,或者發(fā)送垃圾郵件等。
所以這并不是一個簡單的bug,而是一個涉及技術(shù)路線的問題。
也提醒AI研究人員,安全對齊不能只看現(xiàn)代語言、英語和一些常見模式,而是需要系統(tǒng)性地覆蓋多語言、多文化的語境。
當(dāng)我們?yōu)锳I的強(qiáng)大能力驚嘆時,也必須清醒認(rèn)識到,技術(shù)越先進(jìn),安全漏洞可能越隱蔽,影響也越深遠(yuǎn)。
或許文言文越獄只是冰山一角,真正的AI安全需要我們跳出技術(shù)本身,從語言、文化、社會等多個維度構(gòu)建立體防御。
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




