智能體新時代來了？GPT-5.4發(fā)布，會直接使用電腦，但被指出仍存三大問題

澎湃新聞記者秦盛

2026-03-06 10:05

來源：澎湃新聞

? 10%公司 >

聽全文

GPT-5.4發(fā)布，還能使用電腦了。

當?shù)貢r間3月5日，OpenAI正式推出GPT-5.4，在ChatGPT中提供GPT?5.4 Thinking，并上線API和Codex。同時，也推出了GPT-5.4 Pro供需要處理復雜任務(wù)的用戶使用。

據(jù)介紹，在ChatGPT中，GPT-5.4 Thinking 現(xiàn)在可以提供其思考過程的初步計劃，這樣用戶就可以在它工作時中途調(diào)整，最終獲得更符合需求的輸出，而無需額外的對話輪次。GPT-5.4 Thinking還改進了深度網(wǎng)絡(luò)研究，特別是針對高度具體的查詢，同時更好地保持了需要長時間思考的問題的上下文。

同時，GPT-5.4還支持100萬token的上下文窗口，允許代理規(guī)劃、執(zhí)行和驗證長周期的任務(wù)；還通過工具搜索改進了模型在大型工具和連接器生態(tài)系統(tǒng)中的工作方式，幫助代理更高效地找到并使用正確的工具，而不犧牲智能。與GPT-5.2相比，GPT-5.4解決問題所需的token顯著減少。

在GDPval測試中（評估智能體在44種職業(yè)中產(chǎn)生明確規(guī)范的知識工作的能力），GPT-5.4取得新的最高得分，在83%的比較中與行業(yè)專業(yè)人士持平或超越，GPT-5.2為70.9%。

隨著OpenClaw創(chuàng)始人彼得·斯坦伯格（Peter Steinberger）的加入，GPT-5.4具備了原生計算機使用能力，目前可供開發(fā)者構(gòu)建能夠跨網(wǎng)站和軟件系統(tǒng)完成實際任務(wù)的智能體。

OpenAI表示，GPT-5.4擅長編寫代碼以通過Playwright等庫操作計算機，也能根據(jù)屏幕截圖發(fā)出鼠標和鍵盤命令。模型還可以通過開發(fā)者消息進行引導，開發(fā)者可以調(diào)整行為以適應(yīng)特定用例，還能配置模型的安全行為，通過指定自定義確認策略來適應(yīng)不同級別的風險承受能力。

在OSWorld-Verified（衡量模型通過屏幕截圖和鍵盤/鼠標操作導航桌面環(huán)境的能力）中，GPT-5.4 達到了75.0%的成功率，遠超GPT-5.2的47.3%，甚至超過了人類72.4%的表現(xiàn)。而在WebArena-Verified（測試瀏覽器使用）、 Online-Mind2Web（測試瀏覽器使用）、MMMU-Pro（測試模型的視覺理解和推理）測試中，GPT-5.4均取得新的最高分，在OmniDocBench上，GPT-5.4（無推理努力）的平均誤差為也要優(yōu)于 GPT-5.2。

GPT-5.4可以操作電腦處理郵件和日程。

據(jù)介紹，GPT-5.4結(jié)合了GPT-5.3-Codex的編碼優(yōu)勢與領(lǐng)先的知識工作和計算機使用能力，使得模型可以使用工具、迭代并以更少的人工干預(yù)推進工作的長周期任務(wù)。在SWE-Bench Pro上，GPT-5.4與GPT-5.3-Codex持平或表現(xiàn)更佳，同時在各種推理努力下具有更低的延遲。

OpenAI還發(fā)布了一個名為 “Playwright (Interactive)” 的實驗性Codex技能，允許Codex可視化調(diào)試Web和Electron應(yīng)用程序；它甚至可以在構(gòu)建應(yīng)用程序的同時對其進行測試。

當在Codex中開啟/fast模式時，GPT-5.4的token生成速度可提高多達1.5倍。開發(fā)者也可以通過API 使用優(yōu)先處理 (priority processing) 以同樣快的速度訪問GPT-5.4。

同時，在API中，GPT-5.4引入了工具搜索，模型在給定許多工具時（所有工具定義都預(yù)先包含在提示中）所需的token數(shù)量更少，并保留了緩存，請求更快、更便宜。

在ChatGPT中，GPT-5.4 Thinking今日起向Plus、團隊和Pro用戶開放，代替GPT-5.2 Thinking。GPT-5.2 Thinking將在付費用戶的模型選擇器的“遺留模型”中保留三個月，6月5日正式退役。企業(yè)和教育計劃用戶可以通過管理員設(shè)置啟用早期訪問。而GPT-5.4 Pro則供Pro和企業(yè)計劃使用。

費用方面，API中，GPT-5.4每token價格高于GPT-5.2，批量和靈活定價為標準API費率的一半，而優(yōu)先處理為標準API費率的兩倍。輸入價格為2.5美元/百萬Token、輸出價格15美元/百萬Token，Pro版輸入價格則高達30美元/百萬Token，輸出價格180美元/百萬Token。

在Codex中，超過標準272K上下文窗口的請求也將按正常費率的2倍計入使用限制。

GPT5.4發(fā)布后，AI寫作助手公司HyperWrite CEO馬特·舒默（Matt Shumer）第一時間分享了試用感受，表示模型仍存在3方面的問題：前端界面遠遜于Opus 4.6和Gemini 3.1 Pro；模型仍然會忽略一些顯而易見的現(xiàn)實世界背景，例如讓它規(guī)劃一次旅行的行程，乍一看行程安排完美無缺，但它卻忽略了選擇一些春假期間人潮擁擠的地點，所以不得不重新運行提示，并添加更多背景信息；此外，在OpenClaw中測試時，它經(jīng)常在完成任務(wù)前突然停止。

OpenAI CEO山姆·奧特曼（Sam Altman）也隨即回應(yīng)稱將盡快解決這三個問題。

此前，OpenAI剛剛完成1100億美元的新一輪融資，投前估值高達7300億美元。據(jù)介紹，自今年年初以來，Codex的周活躍用戶增長了兩倍多，達到160萬，而ChatGPT周活躍用戶超過9億，個人訂閱用戶數(shù)超5000萬，付費企業(yè)用戶超900萬。

奧特曼曾透露，OpenAI或?qū)⒃?027年上市。據(jù)此前外媒報道，OpenAI此次IPO（首次公開募股）的估值可能高達約1萬億美元，并最早可能在2026年下半年向監(jiān)管機構(gòu)提交上市申請。

責任編輯：劉秀浩

圖片編輯：樂浴峰

校對：張艷

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#OpenAI #ChatGPT #AI #OpenClaw #智能體