智能體新時(shí)代來了？GPT-5.4發(fā)布，會(huì)直接使用電腦，但被指出仍存三大問題

澎湃新聞?dòng)浾?秦盛

2026-03-06 10:05

來源：澎湃新聞

? 10%公司 >

聽全文

GPT-5.4發(fā)布，還能使用電腦了。

當(dāng)?shù)貢r(shí)間3月5日，OpenAI正式推出GPT-5.4，在ChatGPT中提供GPT?5.4 Thinking，并上線API和Codex。同時(shí)，也推出了GPT-5.4 Pro供需要處理復(fù)雜任務(wù)的用戶使用。

據(jù)介紹，在ChatGPT中，GPT-5.4 Thinking 現(xiàn)在可以提供其思考過程的初步計(jì)劃，這樣用戶就可以在它工作時(shí)中途調(diào)整，最終獲得更符合需求的輸出，而無需額外的對(duì)話輪次。GPT-5.4 Thinking還改進(jìn)了深度網(wǎng)絡(luò)研究，特別是針對(duì)高度具體的查詢，同時(shí)更好地保持了需要長時(shí)間思考的問題的上下文。

同時(shí)，GPT-5.4還支持100萬token的上下文窗口，允許代理規(guī)劃、執(zhí)行和驗(yàn)證長周期的任務(wù)；還通過工具搜索改進(jìn)了模型在大型工具和連接器生態(tài)系統(tǒng)中的工作方式，幫助代理更高效地找到并使用正確的工具，而不犧牲智能。與GPT-5.2相比，GPT-5.4解決問題所需的token顯著減少。

在GDPval測試中（評(píng)估智能體在44種職業(yè)中產(chǎn)生明確規(guī)范的知識(shí)工作的能力），GPT-5.4取得新的最高得分，在83%的比較中與行業(yè)專業(yè)人士持平或超越，GPT-5.2為70.9%。

隨著OpenClaw創(chuàng)始人彼得·斯坦伯格（Peter Steinberger）的加入，GPT-5.4具備了原生計(jì)算機(jī)使用能力，目前可供開發(fā)者構(gòu)建能夠跨網(wǎng)站和軟件系統(tǒng)完成實(shí)際任務(wù)的智能體。

OpenAI表示，GPT-5.4擅長編寫代碼以通過Playwright等庫操作計(jì)算機(jī)，也能根據(jù)屏幕截圖發(fā)出鼠標(biāo)和鍵盤命令。模型還可以通過開發(fā)者消息進(jìn)行引導(dǎo)，開發(fā)者可以調(diào)整行為以適應(yīng)特定用例，還能配置模型的安全行為，通過指定自定義確認(rèn)策略來適應(yīng)不同級(jí)別的風(fēng)險(xiǎn)承受能力。

在OSWorld-Verified（衡量模型通過屏幕截圖和鍵盤/鼠標(biāo)操作導(dǎo)航桌面環(huán)境的能力）中，GPT-5.4 達(dá)到了75.0%的成功率，遠(yuǎn)超GPT-5.2的47.3%，甚至超過了人類72.4%的表現(xiàn)。而在WebArena-Verified（測試瀏覽器使用）、 Online-Mind2Web（測試瀏覽器使用）、MMMU-Pro（測試模型的視覺理解和推理）測試中，GPT-5.4均取得新的最高分，在OmniDocBench上，GPT-5.4（無推理努力）的平均誤差為也要優(yōu)于 GPT-5.2。

GPT-5.4可以操作電腦處理郵件和日程。

據(jù)介紹，GPT-5.4結(jié)合了GPT-5.3-Codex的編碼優(yōu)勢與領(lǐng)先的知識(shí)工作和計(jì)算機(jī)使用能力，使得模型可以使用工具、迭代并以更少的人工干預(yù)推進(jìn)工作的長周期任務(wù)。在SWE-Bench Pro上，GPT-5.4與GPT-5.3-Codex持平或表現(xiàn)更佳，同時(shí)在各種推理努力下具有更低的延遲。

OpenAI還發(fā)布了一個(gè)名為 “Playwright (Interactive)” 的實(shí)驗(yàn)性Codex技能，允許Codex可視化調(diào)試Web和Electron應(yīng)用程序；它甚至可以在構(gòu)建應(yīng)用程序的同時(shí)對(duì)其進(jìn)行測試。

當(dāng)在Codex中開啟/fast模式時(shí)，GPT-5.4的token生成速度可提高多達(dá)1.5倍。開發(fā)者也可以通過API 使用優(yōu)先處理 (priority processing) 以同樣快的速度訪問GPT-5.4。

同時(shí)，在API中，GPT-5.4引入了工具搜索，模型在給定許多工具時(shí)（所有工具定義都預(yù)先包含在提示中）所需的token數(shù)量更少，并保留了緩存，請(qǐng)求更快、更便宜。

在ChatGPT中，GPT-5.4 Thinking今日起向Plus、團(tuán)隊(duì)和Pro用戶開放，代替GPT-5.2 Thinking。GPT-5.2 Thinking將在付費(fèi)用戶的模型選擇器的“遺留模型”中保留三個(gè)月，6月5日正式退役。企業(yè)和教育計(jì)劃用戶可以通過管理員設(shè)置啟用早期訪問。而GPT-5.4 Pro則供Pro和企業(yè)計(jì)劃使用。

費(fèi)用方面，API中，GPT-5.4每token價(jià)格高于GPT-5.2，批量和靈活定價(jià)為標(biāo)準(zhǔn)API費(fèi)率的一半，而優(yōu)先處理為標(biāo)準(zhǔn)API費(fèi)率的兩倍。輸入價(jià)格為2.5美元/百萬Token、輸出價(jià)格15美元/百萬Token，Pro版輸入價(jià)格則高達(dá)30美元/百萬Token，輸出價(jià)格180美元/百萬Token。

在Codex中，超過標(biāo)準(zhǔn)272K上下文窗口的請(qǐng)求也將按正常費(fèi)率的2倍計(jì)入使用限制。

GPT5.4發(fā)布后，AI寫作助手公司HyperWrite CEO馬特·舒默（Matt Shumer）第一時(shí)間分享了試用感受，表示模型仍存在3方面的問題：前端界面遠(yuǎn)遜于Opus 4.6和Gemini 3.1 Pro；模型仍然會(huì)忽略一些顯而易見的現(xiàn)實(shí)世界背景，例如讓它規(guī)劃一次旅行的行程，乍一看行程安排完美無缺，但它卻忽略了選擇一些春假期間人潮擁擠的地點(diǎn)，所以不得不重新運(yùn)行提示，并添加更多背景信息；此外，在OpenClaw中測試時(shí)，它經(jīng)常在完成任務(wù)前突然停止。

OpenAI CEO山姆·奧特曼（Sam Altman）也隨即回應(yīng)稱將盡快解決這三個(gè)問題。

此前，OpenAI剛剛完成1100億美元的新一輪融資，投前估值高達(dá)7300億美元。據(jù)介紹，自今年年初以來，Codex的周活躍用戶增長了兩倍多，達(dá)到160萬，而ChatGPT周活躍用戶超過9億，個(gè)人訂閱用戶數(shù)超5000萬，付費(fèi)企業(yè)用戶超900萬。

奧特曼曾透露，OpenAI或?qū)⒃?027年上市。據(jù)此前外媒報(bào)道，OpenAI此次IPO（首次公開募股）的估值可能高達(dá)約1萬億美元，并最早可能在2026年下半年向監(jiān)管機(jī)構(gòu)提交上市申請(qǐng)。

責(zé)任編輯：劉秀浩

圖片編輯：樂浴峰

校對(duì)：張艷

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#OpenAI #ChatGPT #AI #OpenClaw #智能體