下載客戶端

登錄

Anthropic成立TAI研究院，正視AI威脅，AI版“不作惡”來了？

2026-05-08 15:15

來源：澎湃新聞·澎湃號(hào)·湃客

聽全文

昨晚，AI新貴Anthropic （后文簡(jiǎn)稱為 A 社）并沒有發(fā)布Claude新模型，而是推出了一個(gè)看起來特別「無聊」的東西：The Anthropic Institute（Anthropic研究院，簡(jiǎn)稱 TAI）。

相較于2026年流行的Harness Engineering（駕馭工程）而言，TAI要解決的問題更加宏大。按照 Anthropic 公布的研究議程（

anthropic-institute-agenda），TAI重點(diǎn)關(guān)注四個(gè)方向：經(jīng)濟(jì)擴(kuò)散、威脅與韌性、實(shí)際應(yīng)用中的 AI 系統(tǒng)，以及 AI 驅(qū)動(dòng)的研發(fā)。TAI還面向全球發(fā)布“英雄帖”，招募研究員一起工作來解決以上這些問題。

（圖片來源：X@Anthropic 官方）

也就是說，A社（Anthropic簡(jiǎn)稱）成立了一個(gè)內(nèi)部組織，主要研究人類如何與AI相處：

AI 會(huì)怎么影響就業(yè)和經(jīng)濟(jì)？

會(huì)帶來哪些新的安全風(fēng)險(xiǎn)？

人類真實(shí)使用 AI 之后，行為和判斷會(huì)不會(huì)改變？

當(dāng) AI 開始幫助研發(fā)更強(qiáng) AI，這個(gè)加速過程又該如何被理解和約束？

可能很多讀者會(huì)覺得這不過是個(gè)常規(guī)的AI企業(yè)的動(dòng)作，但雷科技認(rèn)為這可能是 A 社近期最值得關(guān)注的一次動(dòng)作。TAI對(duì)AI產(chǎn)業(yè)以及人類的積極影響，如同谷歌當(dāng)年提出「不作惡」的這一價(jià)值信條之于互聯(lián)網(wǎng)產(chǎn)業(yè)一般。所以雷科技AGI才說，這是一次不亞于重大模型升級(jí)的「發(fā)布」。

AI深刻影響經(jīng)濟(jì)：不只是打工人的飯碗

TAI 的首要研究方向是Economic Diffusion（經(jīng)濟(jì)擴(kuò)散）。

回顧人類歷史上的前三次工業(yè)革命，無論是珍妮紡紗機(jī)、轟鳴的蒸汽機(jī)，還是后來的電力和流水線，它們替代的本質(zhì)上都是極其廉價(jià)且重復(fù)的體力勞動(dòng)。然而，AI 掀起的第四次工業(yè)革命截然不同，它直接進(jìn)入了人類最引以為傲的腦力工作區(qū)。

而 TAI 指出的核心矛盾便是：工具升級(jí)了，打工人的處境反而變得更差了。

在研究文案中，TAI 提到，如果未來 3 個(gè)人借助大模型，能干完過去 300 人的活兒，這個(gè)公司到底會(huì)變成什么樣？

設(shè)計(jì)師用 AI 能一鍵搞定最繁瑣的圖層和素材，程序員用AI 能Vibe Coding……假定AI能提高75%的工作效率，但這不會(huì)讓人類工作制從8小時(shí)（甚至996）壓縮到2小時(shí)，相反，人類可能需要多干五倍的活。

TAI 在意的就是「有了 AI，你的工作量就得翻幾倍」的新邏輯。為了量化這一情況，TAI 給出了一個(gè)新名詞The Anthropic Economic Index（Anthropic 經(jīng)濟(jì)指數(shù)）。A 社表示它們并不會(huì)只發(fā)布一些沒什么人關(guān)注的學(xué)術(shù)論文，而是打算把這套真實(shí)數(shù)據(jù)扒出來，明明白白地告訴人類：AI 到底在哪幾個(gè)行業(yè)里悄悄取代了原本屬于人類的崗位？那些初出茅廬的新人們是否會(huì)出道即被「淘汰」？

（圖片來源：AI 生成）

不僅如此，TAI 還把這筆賬算到了現(xiàn)實(shí)世界中。我們都知道大模型是一只永遠(yuǎn)不會(huì)飽腹的「吞金獸」，我們每一次利用 AI 生成文字、圖片、視頻甚至是一次簡(jiǎn)單的詢問都會(huì)燒掉大量Token，Token底層是算力，算力底層是芯片、存儲(chǔ)、電力，如果再深究一層還有碳排放、資本等等。資源永遠(yuǎn)是有限的，當(dāng)社會(huì)將海量資源都傾斜給 AI 時(shí)，別的行業(yè)一定會(huì)受到波及。

2026年，大家最顯著的感受是：AI導(dǎo)致的內(nèi)存與存儲(chǔ)短缺直接導(dǎo)致了消費(fèi)電子普遍漲價(jià)，甚至手機(jī)廠商也被迫降低了新機(jī)推出的意愿。但與此同時(shí)，所有手機(jī)廠商都寄望于用AI來重塑產(chǎn)品邏輯，延長(zhǎng)手機(jī)產(chǎn)品生命周期，OpenAI的原生AI手機(jī)也已被提上日程。當(dāng)每個(gè)人受益于AI時(shí)，更多產(chǎn)業(yè)在被AI深刻影響，好的，壞的都有。

而TAI 要用「經(jīng)濟(jì)指數(shù)」，把AI對(duì)經(jīng)濟(jì)的影響，從抽象的感知量化成數(shù)據(jù)模型：只有將問題搞清楚了，才有可能解決問題。

終極危機(jī)：人類正在「外包」自己的大腦

如果說丟飯碗是鈍刀子割肉，那么AI 對(duì)人類大腦思考思維的轉(zhuǎn)變，就是直接傷害。

最先遭殃的，必然是互聯(lián)網(wǎng)。你不難發(fā)現(xiàn)，如今的互聯(lián)網(wǎng)正在變成一座「屎山」，以前搜旅游攻略能輕松找到不少踩坑避雷的攻略帖，如今卻全是 AI 看似制作精美、排版美觀但全是一本正經(jīng)瞎編的廢話。

更要命的是，AI將灰色產(chǎn)業(yè)的門檻也降到了零：用 AI 換臉造黃謠、克隆親人聲音搞電信詐騙，騙子只是燒掉一些Token就能毀掉普通人的生活。

TAI 還關(guān)注到了更深一層的危機(jī)：AI 在不知不覺間讓人類變得越來越「傻」。

此前曾有中國(guó)用戶在野外看到不認(rèn)識(shí)的野生菌，隨手拍張照發(fā)給AI問「這玩意兒能吃嗎」，AI 一本正經(jīng)地把劇毒蘑菇鑒定成「可食用的美味口蘑」；還有小朋友拿著一個(gè)老鼠夾問 AI 這是什么，AI 煞有介事地分析說這是一個(gè)「方方正正、帶有金屬結(jié)構(gòu)的廢棄卡丁車小玩具」，結(jié)果孩子好奇上手一摸，手指被死死夾住。

這些新聞聽起來像地獄笑話，但它揭示了一個(gè)現(xiàn)象：AI 最大的特點(diǎn)根本不是聰明，而是「迷之自信」。AI 永遠(yuǎn)無法做到 100% 準(zhǔn)確，Google Gemini最新模型大約能做到91%的事實(shí)準(zhǔn)確度已是高水平。但不少用戶卻在使用 AI 的過程中潛移默化中放棄了思考，習(xí)慣性地把一切決定權(quán)都「外包」給了一串代碼。

對(duì)此，TAI 甩出了一個(gè)引人深思的問題：當(dāng)全社會(huì)很大一部分人，都在向僅有的那么兩三個(gè)大模型尋求建議時(shí)，人類群體的思考模式和解決問題的方法，會(huì)發(fā)生怎樣可怕的「同質(zhì)化」？你以為在用 AI工具提高生產(chǎn)效率和認(rèn)知水平，實(shí)際上是在「外包大腦」。換句話說，如果所有人都開始依賴AI，很有可能會(huì)讓人類喪失自主思考能力，讓全人類的腦子變成同一個(gè)模子里刻出來的復(fù)制品。

AI呈現(xiàn)雙重用途，如何預(yù)防智能爆炸？

TAI 還提出了一個(gè)新的概念：雙重用途（Dual-use capabilities），官方的解釋是：如果一個(gè) AI 模型在生物學(xué)上的能力變強(qiáng)了，那它不僅能用來研發(fā)新藥，它同樣能用來制造極其致命的生物武器；如果一個(gè) AI 寫代碼的能力很出色，那它不僅是個(gè)好程序員，它同時(shí)也成了一個(gè)能輕易黑進(jìn)國(guó)家內(nèi)網(wǎng)的黑客。

（圖片來源：Anthropic 官方）

當(dāng)這種帶有「雙重用途」的怪物，大規(guī)模接入自動(dòng)駕駛汽車的大腦、接入工廠的重型機(jī)械臂、甚至被接入安防系統(tǒng)和無人機(jī)群時(shí)，會(huì)惹出多大的禍？在手機(jī)里，AI會(huì)彈出一句「對(duì)不起，我做錯(cuò)了」；但在現(xiàn)實(shí)里，識(shí)別偏差一秒，就是實(shí)打?qū)嵉陌踩a(chǎn)事故。

更別說大模型幾個(gè)禮拜就能迭代一波，但人類去修改一條法規(guī)、但人類修改法律、完善保險(xiǎn)都是按「年」來算的。這中間空出的時(shí)間，就是防御力最低的「裸奔期」。當(dāng)各種由 AI 引發(fā)災(zāi)難發(fā)生時(shí)，如今的社會(huì)根本沒這個(gè)「韌性」去承擔(dān)。

為了解決這個(gè)問題，TAI成立了Frontier Red Team（前沿紅隊(duì)）。這幫人的任務(wù)很簡(jiǎn)單也很抽象：每天變著法子去攻擊和引誘自己開發(fā)出的AI 智能體，以便摸清這玩意兒在現(xiàn)實(shí)世界中到底會(huì)帶來多大的破壞力，為的就是要在社會(huì)這套老舊系統(tǒng)徹底崩潰之前，強(qiáng)行拉起一道防線。

以前，主導(dǎo)AI進(jìn)化速度的是人類程序員，但如今高級(jí)大模型能自己翻論文、寫代碼，可能在不久的將來就能自己研發(fā)新一代大模型，當(dāng) AI 自我套娃的速度越來越快，技術(shù)的進(jìn)化馬上就要甩開人類的認(rèn)知。

（圖片來源：AI 生成）

為了應(yīng)對(duì)這個(gè)隨時(shí)可能到來的奇點(diǎn)，TAI 提出了一個(gè)新的概念：開展針對(duì)智能爆炸的Fire drill scenarios（消防演習(xí)）。

簡(jiǎn)單來說 TAI 準(zhǔn)備拉著頂尖實(shí)驗(yàn)室的高管以及各國(guó)政府來一次沙盤推演：他們要在「智能爆炸」真正發(fā)生之前，提前測(cè)試人類到底有沒有能力踩下剎車。

邊發(fā)展邊治理，A 社嚴(yán)肅地踩了一腳剎車

在這個(gè)全行業(yè)都在閉眼狂奔的節(jié)骨眼上，回過頭來看 Anthropic 設(shè)立 TAI 的這波操作，確實(shí)讓人有些「肅然起敬」。

隔壁的 OpenAI 每天登上熱榜的的不是高管離職內(nèi)斗，就是跟馬斯克的爛賬官司。還有許多 AI 公司業(yè)績(jī)慘淡，卻一邊想法設(shè)法“刷榜單”，一邊四處融資圈錢，靠著虛高的估值吸納著社會(huì)資本。A社TAI要討論的話題業(yè)界一直都在討論，但大多數(shù)AI巨頭的態(tài)度卻是“管它呢，先發(fā)展再說”。在這種極度浮躁的氛圍里，A 社卻來了一腳剎車，把這些見不得光的爛攤子堂而皇之地?cái)[到了臺(tái)面上，表明了對(duì)AI的新態(tài)度：一邊發(fā)展，一邊治理。

A社也不是慈善機(jī)構(gòu)，它不是圣母心爆發(fā)，而是在下一盤很高明的商業(yè)棋。如今那些手握大權(quán)的金主和政府，早就被 AI 引發(fā)的各種翻車事故搞怕了：買個(gè)模型回去，跑分高一點(diǎn)低一點(diǎn)無所謂，最怕的是它突然發(fā)瘋?cè)浅龃蟮?，屆時(shí)根本無法收?qǐng)觥６鳤社用 TAI 給自己凹了一個(gè)「正常人」的人設(shè)，讓用戶放心，讓世界信任。

（圖片來源：AI 生成）

在TAI這篇文章最后其還明確提到：TAI 所有的研究成果和早期預(yù)警，都將直接輸入給 Anthropic 的一個(gè)核心機(jī)構(gòu)——Long-Term Benefit Trust（長(zhǎng)期利益信托）。這個(gè)LTBT的使命就是死死盯住公司的商業(yè)決策，確保 Anthropic 的每一次動(dòng)作，都是為了全人類的長(zhǎng)期利益，而不是追求短期的財(cái)報(bào)利潤(rùn)。

這跟當(dāng)年谷歌那句名震江湖的「不作惡」一模一樣：通過 TAI，A 社在告訴全世界，當(dāng)同行都在比誰飆車快時(shí)，我們不僅跑得快，我們還在研究怎么剎停。

指望科技巨頭自己監(jiān)督自己，確實(shí)有點(diǎn)扯淡，但在現(xiàn)在這個(gè)所有人都蒙著眼把油門焊死狂奔的年代，能有一個(gè)頭部玩家主動(dòng)成立 TAI 這樣的研究院，拿真金白銀去搞經(jīng)濟(jì)指數(shù)、去推演智能爆炸、去研究人類腦子的退化，這本身就值得說道說道了。所以雷科技在開篇就表示，TAI 的發(fā)布要比 A 社直接發(fā)布一個(gè)新模型更重要。

附：TAI官方議程，由Google Gemini翻譯

在Anthropic研究所（TAI），我們將利用前沿實(shí)驗(yàn)室所能獲取的信息，研究人工智能對(duì)世界的影響，并將我們的研究成果與公眾分享。在這里，我們將分享驅(qū)動(dòng)我們研究議程的問題。

我們的研究議程主要集中在以下四個(gè)領(lǐng)域：

經(jīng)濟(jì)擴(kuò)散

威脅與韌性

實(shí)際應(yīng)用中的人工智能系統(tǒng)

人工智能驅(qū)動(dòng)的研發(fā)

在《人工智能安全核心觀點(diǎn)》一文中，我們指出，開展有效的安全研究需要與前沿人工智能系統(tǒng)密切接觸。同樣的道理也適用于開展關(guān)于人工智能對(duì)安全、經(jīng)濟(jì)和社會(huì)影響的有效研究。

在 Anthropic，我們已經(jīng)初步看到軟件工程等工作正在發(fā)生根本性變革。我們正目睹 Anthropic 內(nèi)部經(jīng)濟(jì)結(jié)構(gòu)開始轉(zhuǎn)變，我們構(gòu)建的系統(tǒng)也面臨著新的威脅，人工智能的早期跡象正在加速人工智能自身的研發(fā)進(jìn)程。為了充分發(fā)揮人工智能進(jìn)步的益處，我們希望盡可能多地分享這些信息。我們正在研究這些動(dòng)態(tài)變化將如何影響外部世界，以及公眾如何能夠幫助引導(dǎo)這些變革。

在 TAI，我們將從前沿實(shí)驗(yàn)室的角度研究人工智能在現(xiàn)實(shí)世界中的影響，然后公布這些研究結(jié)果，以幫助外部組織、政府和公眾更好地就人工智能發(fā)展做出決策。

我們將分享研究成果、數(shù)據(jù)和工具，以便個(gè)人研究人員和機(jī)構(gòu)更輕松地開展這些研究課題。具體而言，我們將分享：

我們將以更高的頻率，從人類經(jīng)濟(jì)指數(shù)中獲取更細(xì)致的信息，了解人工智能對(duì)勞動(dòng)力市場(chǎng)的影響和應(yīng)用情況。我們將努力成為重大變革和顛覆的早期預(yù)警信號(hào)。

研究在面對(duì)人工智能帶來的新型安全風(fēng)險(xiǎn)時(shí)，哪些社會(huì)領(lǐng)域最需要投資以提高其韌性。

更詳細(xì)地介紹 Anthropic 如何利用新的 AI 工具加快工作進(jìn)度，以及 AI 系統(tǒng)潛在的遞歸自我改進(jìn)的意義。

TAI 將影響 Anthropic 的決策。這可能表現(xiàn)為該公司與外界分享一些它原本不會(huì)分享的數(shù)據(jù)（例如經(jīng)濟(jì)指數(shù)），或者以不同的方式發(fā)布技術(shù)（例如網(wǎng)絡(luò)威脅分析，這些分析為“玻璃之翼”項(xiàng)目等計(jì)劃提供了數(shù)據(jù)支持）。

我們預(yù)期，TAI研究所開展的研究工作將日益成為Anthropic長(zhǎng)期利益信托基金（LTBT）的重要參考依據(jù)。LTBT的使命是確保Anthropic持續(xù)優(yōu)化其行動(dòng)，以造福人類的長(zhǎng)遠(yuǎn)利益。我們與LTBT以及Anthropic各部門的員工共同制定了這項(xiàng)研究計(jì)劃。

這是一份動(dòng)態(tài)的議程，而非一成不變的。我們將隨著證據(jù)的積累不斷完善這些問題，并且預(yù)計(jì)會(huì)出現(xiàn)一些今天尚未涵蓋的新問題。我們歡迎大家對(duì)這份議程提出反饋意見，并將根據(jù)我們通過討論獲得的信息對(duì)其進(jìn)行修訂。

如果您有興趣幫助我們解答這些問題，我們歡迎您申請(qǐng)成為Anthropic研究員。該研究員項(xiàng)目為期四個(gè)月，由TAI團(tuán)隊(duì)成員指導(dǎo)，您將有機(jī)會(huì)研究一個(gè)或多個(gè)相關(guān)問題。您可以在這里了解更多信息并申請(qǐng)下一期項(xiàng)目。

我們的研究議程：

最后更新日期：2026年5月7日

經(jīng)濟(jì)擴(kuò)散

了解日益強(qiáng)大的人工智能系統(tǒng)的部署如何改變經(jīng)濟(jì)至關(guān)重要。我們還需要開發(fā)必要的經(jīng)濟(jì)數(shù)據(jù)和預(yù)測(cè)能力，以便選擇能夠造福公眾的人工智能部署方式。

為了解答本研究這一支柱中提出的問題，我們將進(jìn)一步完善《人類經(jīng)濟(jì)指數(shù)》中的數(shù)據(jù)。我們還將探索其他方法，以改進(jìn)我們關(guān)于強(qiáng)大的人工智能如何影響社會(huì)的模型，無論這種影響是導(dǎo)致失業(yè)、前所未有的經(jīng)濟(jì)增長(zhǎng)，還是其他方面。

人工智能的應(yīng)用與擴(kuò)散

誰在采用人工智能？人工智能的研發(fā)集中在少數(shù)幾個(gè)國(guó)家的少數(shù)幾家公司，但其部署卻是全球性的。是什么決定了一個(gè)國(guó)家、地區(qū)或城市能否獲得人工智能？如果能夠獲得人工智能，它們?nèi)绾螐闹蝎@取經(jīng)濟(jì)價(jià)值？哪些政策和商業(yè)模式能夠有效地改變這種現(xiàn)狀？自由權(quán)重或開放權(quán)重模式又如何促進(jìn)這種動(dòng)態(tài)變化？

企業(yè)層面的人工智能應(yīng)用：企業(yè)采用人工智能的原因是什么？其后果又是什么？人工智能如何改變企業(yè)或團(tuán)隊(duì)能夠達(dá)到最高效率的規(guī)模？人工智能在企業(yè)間的應(yīng)用集中度如何？人工智能應(yīng)用集中度的變化如何轉(zhuǎn)化為利潤(rùn)率和勞動(dòng)份額？如果一個(gè)3人團(tuán)隊(duì)或公司現(xiàn)在能夠完成以前需要300人才能完成的工作，產(chǎn)業(yè)組織結(jié)構(gòu)將會(huì)發(fā)生怎樣的變化？或者，如果企業(yè)能夠更容易地集中知識(shí)，并且這種做法能夠帶來規(guī)模效益，我們是否會(huì)看到規(guī)模更大、擴(kuò)張更廣的企業(yè)，它們更有動(dòng)機(jī)系統(tǒng)性地監(jiān)控員工？

人工智能是一種通用技術(shù)嗎？人工智能是否遵循以往“通用技術(shù)”的模式，即在利潤(rùn)豐厚的商業(yè)應(yīng)用中普及速度最快，而在社會(huì)回報(bào)超過私人回報(bào)的領(lǐng)域普及速度最慢？是否存在能夠改變這種趨勢(shì)的政策或決策？

生產(chǎn)力和經(jīng)濟(jì)增長(zhǎng)

生產(chǎn)力增長(zhǎng)：人工智能將對(duì)整個(gè)經(jīng)濟(jì)的創(chuàng)新速度和生產(chǎn)力增長(zhǎng)產(chǎn)生什么影響？

分享收益：哪些預(yù)先分配或再分配機(jī)制可以有效地更廣泛地傳播人工智能開發(fā)和部署帶來的收益？

市場(chǎng)交易成本：人工智能如何影響市場(chǎng)中的交易系統(tǒng)和交易成本？何時(shí)讓代理人代表您進(jìn)行談判能夠提高市場(chǎng)效率和公平結(jié)果？何時(shí)又不能？

廣泛的勞動(dòng)力市場(chǎng)影響

人工智能與就業(yè)：人工智能將如何改變經(jīng)濟(jì)各領(lǐng)域的就業(yè)狀況？隨著人工智能自動(dòng)化現(xiàn)有經(jīng)濟(jì)環(huán)節(jié)，哪些新的任務(wù)和工作崗位可能會(huì)涌現(xiàn)？這些變化在不同地區(qū)和國(guó)家之間又將有何差異？我們的“人類經(jīng)濟(jì)指數(shù)調(diào)查”將每月提供人們?nèi)绾慰创斯ぶ悄軐?duì)其工作的影響以及他們對(duì)未來的預(yù)期等信息。我們還將更新經(jīng)濟(jì)指數(shù)，以分享更高頻、更細(xì)致的數(shù)據(jù)。

人工智能的普及速度可以調(diào)節(jié)嗎？各國(guó)央行通過政策利率和前瞻性指引等“調(diào)節(jié)手段”來抑制通脹。人工智能公司（在行業(yè)層面，與政府合作）是否也可以采用類似的調(diào)節(jié)手段，逐個(gè)行業(yè)地控制人工智能的普及速度？這樣做是否會(huì)帶來明顯的公共利益？

工作和工作場(chǎng)所的未來

勞動(dòng)者對(duì)工作的看法：各行各業(yè)的勞動(dòng)者如何看待職業(yè)變化？他們對(duì)這些變化有多大的影響力？“勞動(dòng)者”的力量能否得到維護(hù)或轉(zhuǎn)變？

專業(yè)人才培養(yǎng)體系：許多行業(yè)都依賴初級(jí)職位（例如律師助理、初級(jí)分析師和助理開發(fā)人員）來培養(yǎng)未來的高級(jí)從業(yè)人員。如果人工智能取代了以往積累專業(yè)知識(shí)的工作，那么人們最初又該如何成為專家呢？這對(duì)某個(gè)領(lǐng)域長(zhǎng)期的高級(jí)人才儲(chǔ)備意味著什么？

面向未來的學(xué)習(xí)：人們今天應(yīng)該學(xué)習(xí)什么才能為未來做好準(zhǔn)備？未來的職業(yè)有哪些？人工智能將如何改變學(xué)習(xí)和發(fā)展專業(yè)技能的方式？

有償工作的角色：如果人工智能大幅降低有償工作在人類生活中的核心地位，那么在什么條件下人們才能將時(shí)間和精力重新分配到其他有意義的來源？我們又能從歷史上或當(dāng)代那些工作稀缺或可有可無的群體中學(xué)到什么？社會(huì)又該如何應(yīng)對(duì)這種轉(zhuǎn)變？

威脅與韌性

人工智能系統(tǒng)往往能夠同時(shí)提升多種能力，包括兩用能力。例如，生物學(xué)能力提升的人工智能系統(tǒng)也更容易制造生物武器。計(jì)算機(jī)編程能力強(qiáng)的人工智能系統(tǒng)也更容易入侵計(jì)算機(jī)系統(tǒng)。如果我們能夠更好地理解人工智能系統(tǒng)可能加劇的威脅，社會(huì)就能更容易地應(yīng)對(duì)這種變化的威脅形勢(shì)。

我們提出這些問題，旨在幫助建立合作伙伴關(guān)系，以增強(qiáng)世界應(yīng)對(duì)變革性人工智能的能力，并建立針對(duì)可能出現(xiàn)的新威脅的預(yù)警系統(tǒng)。其中許多問題將指導(dǎo)我們前沿紅隊(duì)的研究議程。

評(píng)估風(fēng)險(xiǎn)和兩用能力：

雙用途技術(shù)：強(qiáng)大的人工智能本質(zhì)上具有雙用途性：既能改善醫(yī)療和教育的工具，也能用于監(jiān)視和鎮(zhèn)壓。我們能否構(gòu)建可觀測(cè)性工具，以了解這種情況是否正在發(fā)生以及如何發(fā)生？

如何合理定價(jià)風(fēng)險(xiǎn)：有哪些有效的、市場(chǎng)驅(qū)動(dòng)的方法可以提高社會(huì)應(yīng)對(duì)人工智能系統(tǒng)預(yù)期威脅的韌性？我們能否開發(fā)新的風(fēng)險(xiǎn)定價(jià)方法，或者開發(fā)技術(shù)工具和人類組織，以便在可預(yù)測(cè)的威脅（例如人工智能網(wǎng)絡(luò)攻擊能力的提升）到來之前提高韌性？

攻防平衡：人工智能賦能的能力是否會(huì)在網(wǎng)絡(luò)空間和生物安全等領(lǐng)域從根本上有利于攻擊者？當(dāng)人工智能應(yīng)用于更傳統(tǒng)的領(lǐng)域，例如與指揮控制系統(tǒng)日益融合時(shí)，它是否也有利于攻擊者？更廣泛地說，人工智能將如何改變?nèi)祟悰_突的性質(zhì)？

制定風(fēng)險(xiǎn)緩解措施：

危機(jī)應(yīng)對(duì)規(guī)劃：冷戰(zhàn)時(shí)期，美國(guó)總統(tǒng)曾設(shè)有直通克里姆林宮的熱線，以便在發(fā)生核危機(jī)時(shí)使用。那么，如果人工智能系統(tǒng)引發(fā)危機(jī)，需要怎樣的地緣政治基礎(chǔ)設(shè)施？這種基礎(chǔ)設(shè)施未必是國(guó)家間的，也可能是公司間或公司間的。

更快的防御機(jī)制：人工智能能力可以在數(shù)月內(nèi)取得長(zhǎng)足進(jìn)步，而監(jiān)管、保險(xiǎn)和基礎(chǔ)設(shè)施的響應(yīng)卻需要數(shù)年時(shí)間。我們?cè)撊绾螐浐线@一差距？諸如自動(dòng)補(bǔ)丁、人工智能威脅檢測(cè)或預(yù)先部署的響應(yīng)能力等防御機(jī)制，能否跟上人工智能攻擊的速度和規(guī)模？或者，這種不對(duì)稱性是結(jié)構(gòu)性的？我們又該如何盡可能有效地部署這些防御機(jī)制？

用于監(jiān)視的情報(bào)能力

人工智能對(duì)監(jiān)控的影響：人工智能將如何改變監(jiān)控的運(yùn)作方式？它會(huì)降低監(jiān)控成本，還是提高監(jiān)控效率，或者兩者兼而有之？

實(shí)際應(yīng)用中的人工智能系統(tǒng)

人與組織和人工智能系統(tǒng)的互動(dòng)將成為社會(huì)變革的重要源泉。了解人工智能系統(tǒng)可能如何改變與其互動(dòng)的人和機(jī)構(gòu)，是我們社會(huì)影響團(tuán)隊(duì)的核心研究領(lǐng)域。為了研究這些變化，我們正在改進(jìn)現(xiàn)有工具并開發(fā)新工具來開展研究，涵蓋了從提高平臺(tái)可觀測(cè)性的軟件到用于進(jìn)行大規(guī)模定性調(diào)查的工具等各個(gè)方面。

人工智能對(duì)個(gè)人和社會(huì)的影響：

群體認(rèn)識(shí)論：當(dāng)很大一部分人群參考相同的少數(shù)幾個(gè)模型時(shí)，我們的認(rèn)識(shí)論會(huì)發(fā)生什么變化？我們能否找到方法來衡量由人工智能的共同使用引起的信念、寫作風(fēng)格和問題解決方法的大規(guī)模變化？

批判性思維：隨著人工智能系統(tǒng)變得越來越強(qiáng)大、越來越值得信賴，我們?nèi)绾螜z測(cè)和避免因越來越依賴人工智能的判斷而導(dǎo)致的人類批判性思維能力的退化？

技術(shù)界面：技術(shù)的界面決定了人們?nèi)绾闻c技術(shù)互動(dòng)——電視使人們成為被動(dòng)的觀眾，而計(jì)算機(jī)則使人們更容易成為創(chuàng)造性的創(chuàng)造者。我們可以構(gòu)建什么樣的界面，才能使人工智能系統(tǒng)改進(jìn)并促進(jìn)人類的自主性？

人機(jī)協(xié)作系統(tǒng)的管理：人類如何有效地管理由人類和人工智能系統(tǒng)組成的團(tuán)隊(duì)？反過來，人工智能系統(tǒng)又該如何管理由人類、人工智能或二者結(jié)合組成的團(tuán)隊(duì)？

識(shí)別人工智能帶來的重大影響：

行為影響：正如社交媒體導(dǎo)致人們行為改變一樣，人工智能也可能塑造人類行為。哪些監(jiān)測(cè)或測(cè)量方法可以幫助研究人員了解這種動(dòng)態(tài)變化？

促進(jìn)研究：是否存在透明機(jī)制和工具，能夠讓廣大民眾（而不僅僅是前沿人工智能公司）輕松研究現(xiàn)實(shí)世界中的人工智能應(yīng)用？

理解和管理人工智能模型：

系統(tǒng)“價(jià)值觀”：人工智能系統(tǒng)表達(dá)的“價(jià)值觀”是什么？這些價(jià)值觀與系統(tǒng)的訓(xùn)練方式有何關(guān)聯(lián)？更具體地說，我們?nèi)绾魏饬咳斯ぶ悄艿摹皹?gòu)成”對(duì)其部署后的行為產(chǎn)生的影響？我們將擴(kuò)展之前針對(duì)這些問題的研究。

自主智能體的治理：現(xiàn)有法律、治理體系和問責(zé)機(jī)制的哪些方面可以適用于自主人工智能智能體？例如，海事法如何處理?xiàng)壌瑔栴}，與法律如何處理無人監(jiān)管的智能體具有關(guān)聯(lián)性。反之，現(xiàn)有法律中是否存在一些已經(jīng)適用于人工智能智能體但實(shí)際上不應(yīng)該適用的方面？

智能體的可靠性：自主人工智能智能體的哪些方面可以進(jìn)行調(diào)整，以適應(yīng)現(xiàn)有的法律、治理體系和問責(zé)機(jī)制？例如，我們能否確保人工智能智能體擁有唯一且可靠的身份，即使在沒有直接人類控制的情況下也能如此？

人工智能治理人工智能：我們?nèi)绾尾拍苡行У乩萌斯ぶ悄軄碇卫砣斯ぶ悄芟到y(tǒng)？在人工智能監(jiān)管的哪些領(lǐng)域，人類具有比較優(yōu)勢(shì)，或者在法律或規(guī)范要求下必須“參與其中”？

智能體交互：人工智能智能體之間交互時(shí)會(huì)涌現(xiàn)出哪些規(guī)范？不同的智能體如何表達(dá)不同的偏好，這些偏好又會(huì)如何影響其他智能體？

人工智能驅(qū)動(dòng)的研發(fā)

隨著人工智能系統(tǒng)功能日益強(qiáng)大，科學(xué)家們正利用它們開展越來越多的研究。這意味著越來越多的科學(xué)研究在越來越少的人工干預(yù)下，以自主或半自主的方式進(jìn)行。在人工智能研究領(lǐng)域，功能日益強(qiáng)大的系統(tǒng)可能被用于開發(fā)自身的后續(xù)版本。我們有時(shí)將這種模式稱為“人工智能驅(qū)動(dòng)的人工智能研發(fā)”。

人工智能驅(qū)動(dòng)的人工智能研發(fā)或許是打造更智能、更強(qiáng)大的系統(tǒng)的“自然紅利”。正如編碼能力的進(jìn)步催生了軍民兩用的網(wǎng)絡(luò)能力，科學(xué)能力的進(jìn)步可能催生軍民兩用生物能力一樣，復(fù)雜技術(shù)工作的進(jìn)步也可能自然而然地產(chǎn)生能夠自我開發(fā)人工智能系統(tǒng)的人工智能系統(tǒng)。

人工智能驅(qū)動(dòng)的人工智能研發(fā)本身蘊(yùn)含著巨大的潛在風(fēng)險(xiǎn)。政策制定者在評(píng)估可采取的措施時(shí)，至關(guān)重要的是要了解人工智能發(fā)展速度的變化趨勢(shì)，以及人工智能研究是否會(huì)開始產(chǎn)生復(fù)利效應(yīng)。

人工智能用于人工智能研發(fā)

人工智能研發(fā)的治理：如果人工智能系統(tǒng)被用于自主開發(fā)和改進(jìn)自身，人類如何才能有效地了解和控制這些系統(tǒng)？最終，什么將治理這些系統(tǒng)？

情報(bào)爆炸應(yīng)急演練：我們?nèi)绾芜M(jìn)行情報(bào)爆炸應(yīng)急演練？如何開展桌面演練，才能真正檢驗(yàn)實(shí)驗(yàn)室領(lǐng)導(dǎo)層、董事會(huì)和政府的決策能力？

人工智能研發(fā)遙測(cè)：我們?nèi)绾魏饬咳斯ぶ悄苎邪l(fā)的總體速度？為了收集這些信息，需要哪些遙測(cè)技術(shù)和底層技術(shù)支持？與人工智能研發(fā)相關(guān)的指標(biāo)如何才能作為遞歸式自我改進(jìn)的早期預(yù)警信號(hào)？

控制人工智能加速發(fā)展：如果智能爆炸即將到來，哪些干預(yù)點(diǎn)能夠減緩或改變這種爆炸速度？假設(shè)人類可以進(jìn)行干預(yù)，那么應(yīng)該由哪些實(shí)體來行使這種能力——政府？企業(yè)？

人工智能在研發(fā)領(lǐng)域的應(yīng)用——即人工智能驅(qū)動(dòng)的其他領(lǐng)域的研究：

科技樹：人工智能加速某些科學(xué)領(lǐng)域的發(fā)展速度遠(yuǎn)超其他領(lǐng)域，這取決于數(shù)據(jù)的可用性、評(píng)估指標(biāo)以及有多少知識(shí)是隱性知識(shí)或受制度限制。這種發(fā)展梯度有多不均衡？科學(xué)進(jìn)步構(gòu)成的變化又意味著哪些人類問題會(huì)優(yōu)先得到解決？

崎嶇的前沿：模型能力在某些領(lǐng)域比其他領(lǐng)域更強(qiáng)。具有巨大正外部性的領(lǐng)域——例如藥物研發(fā)和材料科學(xué)——獲得的投資遠(yuǎn)低于其價(jià)值應(yīng)得的水平。市場(chǎng)根據(jù)私人回報(bào)引導(dǎo)模型改進(jìn)的方向，但我們能否改進(jìn)模型的性能以應(yīng)對(duì)社會(huì)外部性？

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#Anthropic #AI