- +1
智能體新時代來了?GPT-5.4發(fā)布,會直接使用電腦,但被指出仍存三大問題
GPT-5.4發(fā)布,還能使用電腦了。
當?shù)貢r間3月5日,OpenAI正式推出GPT-5.4,在ChatGPT中提供GPT?5.4 Thinking,并上線API和Codex。同時,也推出了GPT-5.4 Pro供需要處理復雜任務(wù)的用戶使用。
據(jù)介紹,在ChatGPT中,GPT-5.4 Thinking 現(xiàn)在可以提供其思考過程的初步計劃,這樣用戶就可以在它工作時中途調(diào)整,最終獲得更符合需求的輸出,而無需額外的對話輪次。GPT-5.4 Thinking還改進了深度網(wǎng)絡(luò)研究,特別是針對高度具體的查詢,同時更好地保持了需要長時間思考的問題的上下文。
同時,GPT-5.4還支持100萬token的上下文窗口,允許代理規(guī)劃、執(zhí)行和驗證長周期的任務(wù);還通過工具搜索改進了模型在大型工具和連接器生態(tài)系統(tǒng)中的工作方式,幫助代理更高效地找到并使用正確的工具,而不犧牲智能。與GPT-5.2相比,GPT-5.4解決問題所需的token顯著減少。
在GDPval測試中(評估智能體在44種職業(yè)中產(chǎn)生明確規(guī)范的知識工作的能力),GPT-5.4取得新的最高得分,在83%的比較中與行業(yè)專業(yè)人士持平或超越,GPT-5.2為70.9%。

隨著OpenClaw創(chuàng)始人彼得·斯坦伯格(Peter Steinberger)的加入,GPT-5.4具備了原生計算機使用能力,目前可供開發(fā)者構(gòu)建能夠跨網(wǎng)站和軟件系統(tǒng)完成實際任務(wù)的智能體。
OpenAI表示,GPT-5.4擅長編寫代碼以通過Playwright等庫操作計算機,也能根據(jù)屏幕截圖發(fā)出鼠標和鍵盤命令。模型還可以通過開發(fā)者消息進行引導,開發(fā)者可以調(diào)整行為以適應(yīng)特定用例,還能配置模型的安全行為,通過指定自定義確認策略來適應(yīng)不同級別的風險承受能力。
在OSWorld-Verified(衡量模型通過屏幕截圖和鍵盤/鼠標操作導航桌面環(huán)境的能力)中,GPT-5.4 達到了75.0%的成功率,遠超GPT-5.2的47.3%,甚至超過了人類72.4%的表現(xiàn)。而在WebArena-Verified(測試瀏覽器使用)、 Online-Mind2Web(測試瀏覽器使用)、MMMU-Pro(測試模型的視覺理解和推理)測試中,GPT-5.4均取得新的最高分,在OmniDocBench上,GPT-5.4(無推理努力)的平均誤差為也要優(yōu)于 GPT-5.2。

GPT-5.4可以操作電腦處理郵件和日程。
據(jù)介紹,GPT-5.4結(jié)合了GPT-5.3-Codex的編碼優(yōu)勢與領(lǐng)先的知識工作和計算機使用能力,使得模型可以使用工具、迭代并以更少的人工干預(yù)推進工作的長周期任務(wù)。在SWE-Bench Pro上,GPT-5.4與GPT-5.3-Codex持平或表現(xiàn)更佳,同時在各種推理努力下具有更低的延遲。
OpenAI還發(fā)布了一個名為 “Playwright (Interactive)” 的實驗性Codex技能,允許Codex可視化調(diào)試Web和Electron應(yīng)用程序;它甚至可以在構(gòu)建應(yīng)用程序的同時對其進行測試。
當在Codex中開啟/fast模式時,GPT-5.4的token生成速度可提高多達1.5倍。開發(fā)者也可以通過API 使用優(yōu)先處理 (priority processing) 以同樣快的速度訪問GPT-5.4。
同時,在API中,GPT-5.4引入了工具搜索,模型在給定許多工具時(所有工具定義都預(yù)先包含在提示中)所需的token數(shù)量更少,并保留了緩存,請求更快、更便宜。
在ChatGPT中,GPT-5.4 Thinking今日起向Plus、團隊和Pro用戶開放,代替GPT-5.2 Thinking。GPT-5.2 Thinking將在付費用戶的模型選擇器的“遺留模型”中保留三個月,6月5日正式退役。企業(yè)和教育計劃用戶可以通過管理員設(shè)置啟用早期訪問。而GPT-5.4 Pro則供Pro和企業(yè)計劃使用。
費用方面,API中,GPT-5.4每token價格高于GPT-5.2,批量和靈活定價為標準API費率的一半,而優(yōu)先處理為標準API費率的兩倍。輸入價格為2.5美元/百萬Token、輸出價格15美元/百萬Token,Pro版輸入價格則高達30美元/百萬Token,輸出價格180美元/百萬Token。
在Codex中,超過標準272K上下文窗口的請求也將按正常費率的2倍計入使用限制。

GPT5.4發(fā)布后,AI寫作助手公司HyperWrite CEO馬特·舒默 (Matt Shumer)第一時間分享了試用感受,表示模型仍存在3方面的問題:前端界面遠遜于Opus 4.6和Gemini 3.1 Pro;模型仍然會忽略一些顯而易見的現(xiàn)實世界背景,例如讓它規(guī)劃一次旅行的行程,乍一看行程安排完美無缺,但它卻忽略了選擇一些春假期間人潮擁擠的地點,所以不得不重新運行提示,并添加更多背景信息;此外,在OpenClaw中測試時,它經(jīng)常在完成任務(wù)前突然停止。
OpenAI CEO山姆·奧特曼(Sam Altman)也隨即回應(yīng)稱將盡快解決這三個問題。
此前,OpenAI剛剛完成1100億美元的新一輪融資,投前估值高達7300億美元。據(jù)介紹,自今年年初以來,Codex的周活躍用戶增長了兩倍多,達到160萬,而ChatGPT周活躍用戶超過9億,個人訂閱用戶數(shù)超5000萬,付費企業(yè)用戶超900萬。
奧特曼曾透露,OpenAI或?qū)⒃?027年上市。據(jù)此前外媒報道,OpenAI此次IPO(首次公開募股)的估值可能高達約1萬億美元,并最早可能在2026年下半年向監(jiān)管機構(gòu)提交上市申請。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




