MIT最新研究：多個AI協(xié)作有助提高大模型推理能力和準確性

澎湃新聞記者邵文

2023-09-20 07:19

來源：澎湃新聞

? 未來2% >

聽全文

·麻省理工學(xué)院計算機科學(xué)與人工智能實驗室（CSAIL）研究團隊發(fā)現(xiàn)，多個語言模型協(xié)同工作勝過單一模型，多個AI協(xié)作有助于提高大型語言模型的推理能力和事實準確性。

·每個語言模型都生成對給定問題的回答，然后整合來自其他代理的反饋，以更新自己的回應(yīng)。最終，多個模型的解決方案通過投票達成一致的最終輸出。這一過程有點像小組討論。

一種新穎的方法允許多種語言模型進行協(xié)作，經(jīng)過多輪辯論，最終得出統(tǒng)一且精確的響應(yīng)。

圖片來源：Alex Shipps/MIT CSAIL，來自Midjourney

當?shù)貢r間9月18日，麻省理工學(xué)院計算機科學(xué)與人工智能實驗室（CSAIL）的團隊在其官網(wǎng)更新了一項研究：發(fā)現(xiàn)多個語言模型協(xié)同工作勝過單一模型，多個AI協(xié)作有助于提高大型語言模型的推理能力和事實準確性。

俗話說“三個臭皮匠，頂個諸葛亮”。簡單而言，這項研究利用多個AI系統(tǒng)互相協(xié)作，以協(xié)商、辯論的方式以達成對給定問題的最佳答案。這種方法提高了大語言模型對事實數(shù)據(jù)的依從性和改進決策的能力。

大型語言模型（LLM）長期存在的問題之一是，其生成的回答不一致，可能有不準確和錯誤的推理。而新方法允許每個智能體（agent）積極評估其他智能體的回答，并利用這些集體反饋來完善自己的回答。

這一過程包括多輪的回應(yīng)生成和批判，每個語言模型都生成對給定問題的回答，然后整合來自其他代理的反饋，以更新自己的回應(yīng)。最終，多個模型的解決方案通過投票達成一致的最終輸出。這一過程有點像小組討論，個體一起努力達成一致和合理的結(jié)論。

這一技術(shù)的一個顯著優(yōu)點在于，它可以無縫應(yīng)用于現(xiàn)有的“黑匣子”模型（指難以知曉其內(nèi)部運行過程），因為這個方法基于生成出的文本，而無需明晰其內(nèi)部工作原理。CSAIL團隊表示，這種簡化可以幫助研究人員和開發(fā)者改進各種語言模型輸出的一致性和事實準確性。

“我們不僅僅依賴于單一的AI模型來提供答案，相反，我們讓眾多的AI模型參與，每個模型都帶來獨特的見解以解決問題。盡管它們的初始回應(yīng)可能顯得簡單或包含錯誤，但這些模型可以通過審查其同行提供的回應(yīng)來改進和提高自己的回答?！甭槭±砉W(xué)院電氣工程和計算機科學(xué)博士生、CSAIL附屬成員以及論文的首席作者之一Yilun Du說道。

根據(jù)Yilun Du的個人主頁，他目前正在攻讀博士，此前已獲得麻省理工學(xué)院學(xué)士學(xué)位，曾在ChatGPT的開發(fā)機構(gòu)OpenAI擔任研究員，在Facebook人工智能研究所（FAIR）和Google Deepmind擔任實習生和訪問研究員，并在國際生物奧林匹克競賽中獲得金牌。有趣的是，他曾在TED發(fā)表題為《為什么機器人需要夢想》的演講。

“當這些AI模型參與對話和思考時，它們更能夠識別和糾正問題，增強解決問題的能力，并更好地驗證其回應(yīng)的準確性?；旧?，我們正在創(chuàng)造一種迫使它們深入問題核心的環(huán)境。這與單一的孤立的AI模型形成對比，后者經(jīng)常復(fù)制互聯(lián)網(wǎng)上找到的內(nèi)容。然而，我們的方法積極刺激了AI模型制定更準確和全面解決方案的能力?！盰ilun Du說。

此項研究涉及數(shù)學(xué)問題的解決，包括小學(xué)和初高中的數(shù)學(xué)問題，并通過多智能體辯論顯著提高了性能。該方法還可以幫助解決經(jīng)常困擾大語言模型的“幻覺”問題。通過設(shè)計這樣的環(huán)境，智能體之間可以批判對方的回應(yīng)，更有動力避免隨機生成信息并優(yōu)先考慮事實準確性。

除了應(yīng)用于語言模型，該方法還可以用于整合具有專門能力的不同模型。通過建立一個多智能體相互交互和辯論的去中心化系統(tǒng)，它們可以潛在地在語音、視頻或文本等各種模式下提高問題解決能力。不過研究人員表示，當處理非常長的上下文時，現(xiàn)有的語言模型可能面臨挑戰(zhàn)，批判能力可能表現(xiàn)得不如預(yù)期。

此外，多智能體辯論形式尚未包括有助于智能集體決策的更復(fù)雜形式的討論。據(jù)研究團隊透露，這正將是未來探索的關(guān)鍵領(lǐng)域。推進這項技術(shù)可能需要更深入地了解人類辯論和討論背后的計算基礎(chǔ)，并使用這些模型來增強或補充現(xiàn)有的大語言模型。

Yilun Du認為，隨著研究人員繼續(xù)完善和探索這種方法，人們可以更接近一個未來，在這個未來，語言模型不僅模仿人類語言，還表現(xiàn)出更系統(tǒng)化和可靠的思維，開創(chuàng)語言理解和應(yīng)用的新時代。

“利用審議過程來改善模型的整體輸出非常有道理，這是從思維鏈的提示中邁出的一大步。”加利福尼亞大學(xué)伯克利分校電氣工程與計算機科學(xué)系副教授、未參與該項工作的安卡·德拉甘說，“我對接下來的發(fā)展感到興奮。當人們看到辯論時，他們是否能更好地判斷大語言模型的答案？人們是否通過自己與大語言模型辯論來得出更好的答案？是否可以使用類似的思想來幫助用戶審查大語言模型給出的答案，以得出更好的答案？”

責任編輯：鄭潔

校對：劉威

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#MIT #AI #大模型