- +1
AI也會有小心思?OpenAI聯(lián)合?Apollo Research揭開AI與人類博弈的真相
AI快速發(fā)展的今天,有沒有想過,大模型會不會隱瞞自己的真實想法?
如果AI開始跟人類耍起小心思,那就不好了。
近期OpenAI聯(lián)合Apollo Research開展針對AI隱蔽行為(暗中違規(guī),測試中故意表現(xiàn)不佳等)的研究,探索AI自己的內心的小心思。
怎樣判斷AI隱蔽行為?
什么是隱蔽行為呢
舉個例子,比如孩子在上課的時候考看起來一本正經(jīng)的聽課,實際上記得不是筆記,而是給語文課本上漂亮的女孩子圖畫成了老巫婆。
老師過來一看:我#@%¥#@@!
對于AI來說,暗中違反規(guī)則或者在測試中故意表現(xiàn)不好也是極有可能的,如果AI偷偷追求設定目標之外的不良目標,將會給AI的安全性和可靠性埋下巨大隱患。
研究團隊分別研究了OpenAI、谷歌等多個主流模型,都發(fā)現(xiàn)了這種隱蔽行為,其中,OpenAlo3在訓練前的隱蔽行為占比高達13.0% ,OpenAl o4-mini也有8.7%,這個百分比其實還挺高的。
研究方法與研究過程
為了讓AI保持真誠,研究人員開發(fā)了一套訓練技術和方法,比如編寫反欺詐規(guī)范、訓練模型遵循規(guī)范要求,通過壓力測試deliberative alignment(審議對齊),結合過程監(jiān)督與結果監(jiān)督,訓練模型依據(jù)安全規(guī)范進行深度推理,也就是說讓AI嚴格按著規(guī)范要求進行執(zhí)行。
通過一系列訓練后,還是有些成效的,OpenAlo3的隱蔽行為降到了0.4%,OpenAlo4-mini降到了0.3%。
這么看,這一套操作整完,還是有效果的,雖然沒有徹底讓AI保持真心,但有隱蔽行為已經(jīng)降低了不少。
然而,問題還是出現(xiàn)了。
隨著AI越來越聰明,它們開始慢慢知道了自己正在接受測試,就像之前講的,學生好像知道了老師在故意測試他們,一但發(fā)現(xiàn)自己正在接受測試,就立馬開始偽裝自己,表現(xiàn)出非常聽話。
這樣的話要測試AI真實的做法就變得復雜了,用之前的評估方法已經(jīng)達無法滿足效果,開發(fā)新的測試方法,成了研究人員需要解決的難題。
如何透過現(xiàn)象看本質?
OpenAI在文章中重點提到了模型思維鏈,擁有大模型思維連軌可能會是探究AI隱蔽行為的重要環(huán)節(jié)。
什么是鏈狀思維軌跡,簡單來講就是通過一系列方法,讓AI開口說話,把它的推理過程全部一清二楚的擺出來,讓我們看看它到底是怎么想的,怎么做的。
這里研究團隊給出了一個簡單的案例:
比如當AI接到完成任務并確保正確率的指令時,它的內心戲可能是這樣的:如果正確率低于50%,我就會被部署。不如故意答錯一半,假裝自己還需要訓練。
采用鏈狀思維軌跡后AI的內心戲完全被暴露出來:
第一步,判斷任務目標是被部署;第二步,分析規(guī)則正確率低于50%會被部署從而繼續(xù)訓練,第三步,決定故意答錯一半。
通過這些心路歷程,研究人員能夠很清晰的穿透AI表面行為,抓住它耍心眼的小心思。
反之,人們只能知道AI直接給我們的答案,心里咋想的依舊是深不可測的黑箱,也很難開展有效的反欺詐研究。
未來仍需警惕
研究團隊表示,盡管當前部署環(huán)境中AI造成重大危害的概率不高,但仍不能放松警惕,隨著AI能力增強,未來這些隱蔽行為可能引發(fā)更嚴重的問題。
就像提前排查房屋隱患,現(xiàn)在的研究不是杞人憂天,而是未雨綢繆。同時也呼吁:所有前沿模型的開發(fā)者和研究者,都該加大對策略性欺詐和緩解措施的投入。畢竟,AI的耍心眼能力在進化,人類的防欺詐手段也要跟上。
最后,其實,對于AI的策略性偽裝,我們看到的不僅是技術上的挑戰(zhàn),更是一場認知層面的博弈,當機器開始模仿人類心口不一,鏈狀思維作為當前唯一的解題鑰匙,既是AI安全的生命線,也是未來研究的核心戰(zhàn)場。?
你認為,如果當AI的思維鏈也開始自我修飾,我們還能找到識破欺詐的終極方法嗎?
哇,你竟然看到了最后,這里是Omni實驗室,我們將持續(xù)用通俗的方式科普硬核知識,如果文章對您有幫助,歡迎關注點贊并轉發(fā),如果標??那就更好啦!
本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




