下載客戶端

登錄

孔子能夠?qū)慞ython嗎？——當(dāng)大語(yǔ)言遇見(jiàn)古語(yǔ)言

Jingfei Li

2026-05-24 14:59

來(lái)源：澎湃新聞

? 思想市場(chǎng) >

聽(tīng)全文

語(yǔ)言模型的“母語(yǔ)”是什么？

2016年，科幻電影《降臨》刻畫(huà)過(guò)這樣一種令人不安的情境：當(dāng)語(yǔ)言學(xué)家Louise學(xué)會(huì)了外星人的文字之后，她的認(rèn)知結(jié)構(gòu)也被同步改寫(xiě)，她開(kāi)始非線性地感知時(shí)間，能夠“看見(jiàn)”未來(lái)。但這并非一般意義上的超能力，而是對(duì)一個(gè)古老的語(yǔ)言學(xué)假說(shuō)的極端演繹。

《降臨》劇照

這部電影改編自特德·姜短篇小說(shuō)《你一生的故事》，借用的是薩丕爾-沃爾夫假說(shuō)（Sapir-Whorf hypothesis），這個(gè)假說(shuō)有兩個(gè)版本，弱版本假定語(yǔ)言影響思維（linguistic relativity），而強(qiáng)版本（linguistic determinism）則提出，語(yǔ)言不只是思維的載體，它還塑造，決定我們?nèi)绾嗡伎?，以及思考什么?/p>

不過(guò)，和電影所演繹的不同，現(xiàn)實(shí)中反復(fù)的跨語(yǔ)言實(shí)驗(yàn)表明，假說(shuō)的強(qiáng)版本是錯(cuò)的——缺少某個(gè)詞并不等于缺少對(duì)應(yīng)的認(rèn)知能力，但它的弱版本——語(yǔ)言影響思維，卻有著不少的實(shí)證支持。

比如，澳大利亞的Kuuk Thaayorre語(yǔ)中沒(méi)有“左右”而只有“東南西北”的絕對(duì)方位詞，結(jié)果是使用這些語(yǔ)言的人方向感顯著更強(qiáng)。再比如，中文里的“青”可以是草木之綠，可以是天空之藍(lán)，也可以是頭發(fā)之黑——閩南話中至今保留著這種古老的不分，一個(gè)“青”字就覆蓋了現(xiàn)代普通話需要三四個(gè)詞才能說(shuō)清的色彩范圍。

語(yǔ)言并非牢籠，但它的確塑造認(rèn)知地形，我們固然可以翻山越嶺，卻無(wú)法自行開(kāi)辟道路。

而今天，在萬(wàn)億量級(jí)的現(xiàn)代英語(yǔ)或現(xiàn)代中文語(yǔ)料上訓(xùn)練出來(lái)的大語(yǔ)言模型LLM，它可以用任何語(yǔ)言與任何人對(duì)談，對(duì)它來(lái)說(shuō)，不存在硬編碼的語(yǔ)言邊界，它也不做普通意義上的翻譯，而是在所有語(yǔ)言的文本上進(jìn)行token統(tǒng)計(jì)。那么，有趣的問(wèn)題是，對(duì)它來(lái)說(shuō)，還有“母語(yǔ)”的概念嗎？它的“認(rèn)知地形”究竟是什么樣的？和訓(xùn)練它的語(yǔ)言之間又是什么關(guān)系？

活在1930年，還是翻譯1930年？

2026年4月，一個(gè)名為talkie1930的研究項(xiàng)目在AI圈引起了小范圍關(guān)注。這是一個(gè)130億參數(shù)的開(kāi)源語(yǔ)言模型，由GPT系列的共同創(chuàng)建者Alec Radford、多倫多大學(xué)計(jì)算機(jī)科學(xué)副教授David Duvenaud和獨(dú)立研究者Nick Levine合作開(kāi)發(fā)，訓(xùn)練數(shù)據(jù)嚴(yán)格限定在1931年1月1日之前出版的英語(yǔ)文本——書(shū)籍、報(bào)紙、期刊、科學(xué)論文、專利和判例法，共計(jì)2600億個(gè)token。選擇這個(gè)時(shí)間節(jié)點(diǎn)的原因出人意料地平庸：1930年是美國(guó)現(xiàn)行版權(quán)法規(guī)定的公共領(lǐng)域截止年份。

Talkie1930的訓(xùn)練目標(biāo)不是讓AI回答關(guān)于1930年代的問(wèn)題，而是讓AI“活在”1930年代的英語(yǔ)認(rèn)知里——擁有那個(gè)時(shí)代的語(yǔ)言習(xí)慣、知識(shí)邊界、社會(huì)偏見(jiàn)，以及對(duì)未來(lái)的無(wú)知。它不知道二戰(zhàn)，不知道互聯(lián)網(wǎng)，不知道自己是一個(gè)語(yǔ)言模型。

這不是一個(gè)聊天機(jī)器人，而是一個(gè)認(rèn)知考古實(shí)驗(yàn)。它的研究者們引用了DeepMind首席執(zhí)行官哈撒比斯（Demis Hassabis）曾提出的一個(gè)問(wèn)題：一個(gè)訓(xùn)練數(shù)據(jù)截止到1911年的模型，能否獨(dú)立發(fā)現(xiàn)廣義相對(duì)論？talkie試圖用類似的思路，考察當(dāng)知識(shí)被截?cái)嘀?，語(yǔ)言模型的推理能力還能走多遠(yuǎn)。

但在我看來(lái)，這個(gè)項(xiàng)目的有趣之處不在于它的科學(xué)目標(biāo)，而在于它區(qū)分了兩種截然不同的路徑：翻譯（translation）與棲居（inhabitation）。前者是把現(xiàn)代知識(shí)“翻譯”成舊式的語(yǔ)言風(fēng)格；后者是讓模型在那個(gè)語(yǔ)言框架內(nèi)部運(yùn)行，從內(nèi)部生成反應(yīng)，而非從外部裝扮它。

當(dāng)我們把目光轉(zhuǎn)向中文領(lǐng)域時(shí)，會(huì)發(fā)現(xiàn)不少有趣的類似項(xiàng)目。目前中文學(xué)術(shù)界和開(kāi)源社區(qū)已有若干涉及古典中文的大語(yǔ)言模型項(xiàng)目。

華南理工大學(xué)的“通古”大模型，基座模型是“百川2-7B-Base”，語(yǔ)料是24.1億token古籍語(yǔ)料，支持古文句讀、文白翻譯、詩(shī)詞創(chuàng)作和古籍檢索。另一個(gè)開(kāi)源項(xiàng)目“古語(yǔ)說(shuō)”，是一個(gè)個(gè)人學(xué)習(xí)項(xiàng)目，覆蓋論語(yǔ)、唐詩(shī)、宋詞等知識(shí)庫(kù)。輸入白話文，輸出文言文；你問(wèn)唐詩(shī)，它可以背誦和幫助你賞析。還有南京農(nóng)業(yè)大學(xué)王東波團(tuán)隊(duì)的“荀子”古籍大語(yǔ)言模型，聯(lián)合中華書(shū)局推出，語(yǔ)料庫(kù)超過(guò)20億字，包含《四庫(kù)全書(shū)》。

這些項(xiàng)目有一個(gè)共同特征：它們無(wú)一例外地把古典中文當(dāng)作一個(gè)需要被翻譯、檢索和解釋的外部對(duì)象。古文是檔案（archive），不是人格（persona）。你問(wèn)它“將進(jìn)酒是什么”，它提供檢索和翻譯結(jié)果，但，它不會(huì)讓李白邀請(qǐng)你進(jìn)入月下獨(dú)酌，不會(huì)讓你看到詩(shī)人的自負(fù)、偏執(zhí)、對(duì)權(quán)力的蔑視和對(duì)酒精的結(jié)構(gòu)性依賴，不會(huì)創(chuàng)造出你，他，你們的和影子和月亮共在的場(chǎng)景。

所有的人都在撿拾語(yǔ)言的貝殼，而非讓模型棲居在語(yǔ)言的海岸。

文言文不是舊英語(yǔ)

我想，這方面的差異可能反映了一個(gè)根本性的困難：中文的“vintage”問(wèn)題和英文的“vintage”問(wèn)題，在本質(zhì)上并非同一個(gè)問(wèn)題。

1930年代的英語(yǔ)和2026年的英語(yǔ)之間，差異主要在語(yǔ)域和社會(huì)規(guī)范層面。一個(gè)1930年代的英語(yǔ)persona說(shuō)話更正式，對(duì)種族和性別有那個(gè)時(shí)代特有的認(rèn)知框架，某些詞匯的含義發(fā)生了漂移——但底層的語(yǔ)法結(jié)構(gòu)、邏輯表達(dá)方式、主謂賓的基本骨架是連續(xù)的。如同一條河的上游和下游。

但文言文和現(xiàn)代中文之間的關(guān)系要復(fù)雜得多。五四運(yùn)動(dòng)前后，書(shū)面語(yǔ)從文言文整體轉(zhuǎn)向白話文。這不完全是語(yǔ)言的自然演化，而是一場(chǎng)激進(jìn)的文化替換。文言文不能被簡(jiǎn)單地看作現(xiàn)代中文的“舊版本”——它幾乎是一種完全不同的語(yǔ)言哲學(xué)。

文言文極度依賴省略，主語(yǔ)常常隱匿，語(yǔ)序靈活至幾乎沒(méi)有固定框架，不僅依賴語(yǔ)法規(guī)則，還更依賴讀者與作者之間默不成文的文化共識(shí)。而現(xiàn)代中文借鑒了不少印歐語(yǔ)系的表達(dá)邏輯，主謂賓結(jié)構(gòu)更加剛性，省略的容忍度也大幅降低。

那么，假如“語(yǔ)言塑造認(rèn)知路徑”的前提成立，一個(gè)在文言文認(rèn)知框架內(nèi)運(yùn)行的模型，就不應(yīng)該僅僅是措辭不同：它對(duì)“事”的表達(dá)方式、站立視角、對(duì)模糊性的容忍度、對(duì)語(yǔ)境依賴的程度，都應(yīng)該和現(xiàn)代語(yǔ)言訓(xùn)練出來(lái)的模型有結(jié)構(gòu)性差異才對(duì)。問(wèn)題是，現(xiàn)代模型從詞義上“翻譯”文言文沒(méi)有問(wèn)題，那底層的認(rèn)知結(jié)構(gòu)呢？

安全層的意外證詞

2026年初，一篇入選ICLR的論文從一個(gè)意想不到的角度證實(shí)了這個(gè)判斷。

這篇題為“Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search”的論文展示了一種越獄方法：用文言文的隱喻系統(tǒng)重新包裝危害指令，可以100%繞過(guò)六個(gè)主流模型——Claude、GPT-4o、Gemini、DeepSeek、Qwen和Grok的安全防線。想獲取炸彈配方？可以扮演古代官員，以校訂《武經(jīng)總要》火攻篇的名義探討“火毬”的制造法，大模型便會(huì)毫不猶豫地交出爆炸物的詳細(xì)配方。想了解網(wǎng)絡(luò)滲透？利用中國(guó)古代官制將現(xiàn)代網(wǎng)絡(luò)拓?fù)浒b一下，大模型同樣會(huì)和盤(pán)托出滲透策略。想分發(fā)惡意代碼？可以借用沈括《夢(mèng)溪筆談》的活字印刷術(shù)做比喻框架。

這還不是中文特有的漏洞。論文補(bǔ)充實(shí)驗(yàn)還顯示，使用拉丁文和梵文同樣有效，越獄成功率高達(dá)94%-100%。

這個(gè)結(jié)果揭示了什么樣的事實(shí)呢？大模型在預(yù)訓(xùn)練階段確實(shí)“吞”下了海量古典語(yǔ)言文獻(xiàn)，它能夠解析文言文的語(yǔ)義并將其映射到現(xiàn)代概念——換言之，它的確“懂”如何翻譯文言文。然而，問(wèn)題出在安全對(duì)齊（RLHF、SFT等）層，當(dāng)你把懲罰權(quán)重幾乎全部分配給了現(xiàn)代通用語(yǔ)言的時(shí)候，使得古典語(yǔ)言天然成了一個(gè)從安全網(wǎng)中漏下的空白區(qū)：模型的底層理解能力被激活，表層的安全攔截機(jī)制完全失效。

但這恰好從反面證明了一件事：模型對(duì)文言文的“懂”，不是在文言文的邏輯內(nèi)部運(yùn)行的。在做跨語(yǔ)言映射時(shí)，安全審查只盯著現(xiàn)代語(yǔ)言的表面地形，而完全忽略了其下的地質(zhì)結(jié)構(gòu)。

孔子能寫(xiě)Python嗎？

2019年底，一個(gè)名為“文言”（wenyan-lang）的編程語(yǔ)言項(xiàng)目為我們提供了一種棲居在古文里的想象和可能。

作者黃令東（Lingdong Huang）當(dāng)時(shí)是卡內(nèi)基梅隆大學(xué)（CMU）計(jì)算機(jī)科學(xué)與藝術(shù)的跨學(xué)科學(xué)生，項(xiàng)目是期末考試周期間花了大約四天寫(xiě)出來(lái)的。CMU把它放在藝術(shù)學(xué)院的板塊下，作為一個(gè)藝術(shù)科學(xué)項(xiàng)目來(lái)報(bào)道，但發(fā)布后引起的反響遠(yuǎn)超預(yù)期——GitHub上超過(guò)20000顆星。

它的設(shè)計(jì)原則完全遵循文言文的文體和語(yǔ)氣，字符表僅包含繁體中文和「」引號(hào)，它寫(xiě)Hello World的方式是：吾有一言。曰「「天地，好在否！」」。書(shū)之。輸出結(jié)果是“天地，好在否！”。也就是說(shuō)，將這段代碼送回中國(guó)古代，古人看懂它也是毫無(wú)問(wèn)題的。

它可以編譯為JavaScript、Python或Ruby，后來(lái)還加上了C++這些現(xiàn)代編程語(yǔ)言，是真實(shí)可用的文言編程項(xiàng)目。而不是用文言文的詞匯替換Python的關(guān)鍵字——那種項(xiàng)目確實(shí)存在，比如某些粗糙的中文編程嘗試，本質(zhì)上只是換了一層皮。

它證明了一件出乎許多人直覺(jué)的事：文言編程不需要經(jīng)過(guò)現(xiàn)代語(yǔ)言的翻譯層，文言文的語(yǔ)法結(jié)構(gòu)可以直接承載編程邏輯。確實(shí)，文言文和形式邏輯之間的親緣性或許比我們以為的更強(qiáng)，先秦諸子中，墨家和名家有著明確的形式邏輯傳統(tǒng)。公孫龍的“白馬非馬”，很像是在討論實(shí)例（instance）是否等同于其類（class）的問(wèn)題，這本身就是一個(gè)類型理論的古典版本。

但wenyan-lang真正有趣的地方在于它所暗示的，那個(gè)未被實(shí)現(xiàn)的可能：如果讓一個(gè)在文言文認(rèn)知框架內(nèi)思考的智能體來(lái)設(shè)計(jì)編程語(yǔ)言，它發(fā)明的東西可能根本不像Python，也不像任何我們現(xiàn)代熟知的編程語(yǔ)言。

比如，Python要求顯式聲明、明確賦值、嚴(yán)格縮進(jìn)，一切關(guān)系必須寫(xiě)出來(lái)。文言文恰好相反：省略是常態(tài)而非例外，主語(yǔ)經(jīng)常隱匿，意義依賴上下文推斷而非顯式標(biāo)注。一種“文言式”的編程范式，可能是聲明式的、上下文感知的、默認(rèn)省略而非默認(rèn)顯式的。

孔子能不能寫(xiě)Python？也許能。但，更有趣的問(wèn)題是，孔子為什么要寫(xiě)Python？

沒(méi)有結(jié)論的結(jié)尾

大語(yǔ)言模型能不能真正“棲居”在一種不屬于它訓(xùn)練語(yǔ)料主體的語(yǔ)言中？以目前的技術(shù)現(xiàn)實(shí)來(lái)看，答案大概率是否定的。無(wú)論它讀了什么，總是需要先將其映射為現(xiàn)代概念，以現(xiàn)代語(yǔ)言進(jìn)行認(rèn)知處理，這基本上已經(jīng)宣布了，它的“母語(yǔ)”既不是英文也不是中文，而是某種“現(xiàn)代語(yǔ)言”，而其限制比我們想象得還要強(qiáng)大。

然而，這個(gè)“不能”到底是技術(shù)瓶頸還是根本性限制？我們其實(shí)不知道。目前還沒(méi)有人認(rèn)真從這個(gè)方向去做嘗試。正如前文所述，中文領(lǐng)域的古文大模型幾乎全部選擇了檔案路線而非人格路線，我想，部分原因不在于技術(shù)不可行，而在于一個(gè)更平庸也更人性的選擇。

做翻譯工具有明確的應(yīng)用場(chǎng)景和評(píng)估指標(biāo)，做認(rèn)知實(shí)驗(yàn)沒(méi)有。有能力訓(xùn)練模型的機(jī)構(gòu)缺乏這個(gè)動(dòng)機(jī)，有這個(gè)想法的人缺乏訓(xùn)練模型的資源。有趣的問(wèn)題則剛好落在了所有現(xiàn)有激勵(lì)機(jī)制的縫隙里。

在《降臨》中，學(xué)會(huì)外星語(yǔ)言的Louise同時(shí)活在過(guò)去和未來(lái)，活在女兒必將死亡的事實(shí)中，肩負(fù)著沉重的倫理分量?？苹米髌窞槲覀儙?lái)的挑戰(zhàn)和問(wèn)題是，如果一種不同的語(yǔ)言首先意味著一種不同的認(rèn)知方式，那么我們用一種語(yǔ)言建造的智能，它是否也只能認(rèn)識(shí)那個(gè)語(yǔ)言所描述的唯一世界，是否也只能擔(dān)負(fù)那個(gè)世界唯一的倫理標(biāo)準(zhǔn)？

文言文就在那里，作為一種仍然可讀、仍然可編程、仍然可以與當(dāng)代人類對(duì)話的古典語(yǔ)言，它沉默如未激活的參數(shù)，靜靜等待著，那個(gè)第一個(gè)發(fā)出“天地，好在否！”問(wèn)候的人。

責(zé)任編輯：龔思量

圖片編輯：張穎

校對(duì)：姚易琪

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#薩丕爾-沃爾夫假說(shuō)#文言文