中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

AI也會有小心思?OpenAI聯(lián)合?Apollo Research揭開AI與人類博弈的真相

2026-03-12 14:36
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

AI快速發(fā)展的今天,有沒有想過,大模型會不會隱瞞自己的真實想法?

如果AI開始跟人類耍起小心思,那就不好了。

近期OpenAI聯(lián)合Apollo Research開展針對AI隱蔽行為(暗中違規(guī),測試中故意表現(xiàn)不佳等)的研究,探索AI自己的內心的小心思。

怎樣判斷AI隱蔽行為?

什么是隱蔽行為呢

舉個例子,比如孩子在上課的時候考看起來一本正經(jīng)的聽課,實際上記得不是筆記,而是給語文課本上漂亮的女孩子圖畫成了老巫婆。

老師過來一看:我#@%¥#@@!

對于AI來說,暗中違反規(guī)則或者在測試中故意表現(xiàn)不好也是極有可能的,如果AI偷偷追求設定目標之外的不良目標,將會給AI的安全性和可靠性埋下巨大隱患。

研究團隊分別研究了OpenAI、谷歌等多個主流模型,都發(fā)現(xiàn)了這種隱蔽行為,其中,OpenAlo3在訓練前的隱蔽行為占比高達13.0% ,OpenAl o4-mini也有8.7%,這個百分比其實還挺高的。

研究方法與研究過程

為了讓AI保持真誠,研究人員開發(fā)了一套訓練技術和方法,比如編寫反欺詐規(guī)范、訓練模型遵循規(guī)范要求,通過壓力測試deliberative alignment(審議對齊),結合過程監(jiān)督與結果監(jiān)督,訓練模型依據(jù)安全規(guī)范進行深度推理,也就是說讓AI嚴格按著規(guī)范要求進行執(zhí)行。

通過一系列訓練后,還是有些成效的,OpenAlo3的隱蔽行為降到了0.4%,OpenAlo4-mini降到了0.3%。

這么看,這一套操作整完,還是有效果的,雖然沒有徹底讓AI保持真心,但有隱蔽行為已經(jīng)降低了不少。

然而,問題還是出現(xiàn)了。

隨著AI越來越聰明,它們開始慢慢知道了自己正在接受測試,就像之前講的,學生好像知道了老師在故意測試他們,一但發(fā)現(xiàn)自己正在接受測試,就立馬開始偽裝自己,表現(xiàn)出非常聽話。

這樣的話要測試AI真實的做法就變得復雜了,用之前的評估方法已經(jīng)達無法滿足效果,開發(fā)新的測試方法,成了研究人員需要解決的難題。

如何透過現(xiàn)象看本質?

OpenAI在文章中重點提到了模型思維鏈,擁有大模型思維連軌可能會是探究AI隱蔽行為的重要環(huán)節(jié)。 

什么是鏈狀思維軌跡,簡單來講就是通過一系列方法,讓AI開口說話,把它的推理過程全部一清二楚的擺出來,讓我們看看它到底是怎么想的,怎么做的。

這里研究團隊給出了一個簡單的案例:

比如當AI接到完成任務并確保正確率的指令時,它的內心戲可能是這樣的:如果正確率低于50%,我就會被部署。不如故意答錯一半,假裝自己還需要訓練。

采用鏈狀思維軌跡后AI的內心戲完全被暴露出來:

第一步,判斷任務目標是被部署;第二步,分析規(guī)則正確率低于50%會被部署從而繼續(xù)訓練,第三步,決定故意答錯一半。

通過這些心路歷程,研究人員能夠很清晰的穿透AI表面行為,抓住它耍心眼的小心思。

反之,人們只能知道AI直接給我們的答案,心里咋想的依舊是深不可測的黑箱,也很難開展有效的反欺詐研究。

未來仍需警惕 

研究團隊表示,盡管當前部署環(huán)境中AI造成重大危害的概率不高,但仍不能放松警惕,隨著AI能力增強,未來這些隱蔽行為可能引發(fā)更嚴重的問題。

就像提前排查房屋隱患,現(xiàn)在的研究不是杞人憂天,而是未雨綢繆。同時也呼吁:所有前沿模型的開發(fā)者和研究者,都該加大對策略性欺詐和緩解措施的投入。畢竟,AI的耍心眼能力在進化,人類的防欺詐手段也要跟上。

最后,其實,對于AI的策略性偽裝,我們看到的不僅是技術上的挑戰(zhàn),更是一場認知層面的博弈,當機器開始模仿人類心口不一,鏈狀思維作為當前唯一的解題鑰匙,既是AI安全的生命線,也是未來研究的核心戰(zhàn)場。?

你認為,如果當AI的思維鏈也開始自我修飾,我們還能找到識破欺詐的終極方法嗎?

哇,你竟然看到了最后,這里是Omni實驗室,我們將持續(xù)用通俗的方式科普硬核知識,如果文章對您有幫助,歡迎關注點贊并轉發(fā),如果標??那就更好啦!

    本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司