中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

智能體新時(shí)代來了?GPT-5.4發(fā)布,會(huì)直接使用電腦,但被指出仍存三大問題

澎湃新聞?dòng)浾?秦盛
2026-03-06 10:05
來源:澎湃新聞
? 10%公司 >
聽全文
字號(hào)

GPT-5.4發(fā)布,還能使用電腦了。

當(dāng)?shù)貢r(shí)間3月5日,OpenAI正式推出GPT-5.4,在ChatGPT中提供GPT?5.4 Thinking,并上線API和Codex。同時(shí),也推出了GPT-5.4 Pro供需要處理復(fù)雜任務(wù)的用戶使用。

據(jù)介紹,在ChatGPT中,GPT-5.4 Thinking 現(xiàn)在可以提供其思考過程的初步計(jì)劃,這樣用戶就可以在它工作時(shí)中途調(diào)整,最終獲得更符合需求的輸出,而無需額外的對(duì)話輪次。GPT-5.4 Thinking還改進(jìn)了深度網(wǎng)絡(luò)研究,特別是針對(duì)高度具體的查詢,同時(shí)更好地保持了需要長時(shí)間思考的問題的上下文。

同時(shí),GPT-5.4還支持100萬token的上下文窗口,允許代理規(guī)劃、執(zhí)行和驗(yàn)證長周期的任務(wù);還通過工具搜索改進(jìn)了模型在大型工具和連接器生態(tài)系統(tǒng)中的工作方式,幫助代理更高效地找到并使用正確的工具,而不犧牲智能。與GPT-5.2相比,GPT-5.4解決問題所需的token顯著減少。

在GDPval測試中(評(píng)估智能體在44種職業(yè)中產(chǎn)生明確規(guī)范的知識(shí)工作的能力),GPT-5.4取得新的最高得分,在83%的比較中與行業(yè)專業(yè)人士持平或超越,GPT-5.2為70.9%。

隨著OpenClaw創(chuàng)始人彼得·斯坦伯格(Peter Steinberger)的加入,GPT-5.4具備了原生計(jì)算機(jī)使用能力,目前可供開發(fā)者構(gòu)建能夠跨網(wǎng)站和軟件系統(tǒng)完成實(shí)際任務(wù)的智能體。

OpenAI表示,GPT-5.4擅長編寫代碼以通過Playwright等庫操作計(jì)算機(jī),也能根據(jù)屏幕截圖發(fā)出鼠標(biāo)和鍵盤命令。模型還可以通過開發(fā)者消息進(jìn)行引導(dǎo),開發(fā)者可以調(diào)整行為以適應(yīng)特定用例,還能配置模型的安全行為,通過指定自定義確認(rèn)策略來適應(yīng)不同級(jí)別的風(fēng)險(xiǎn)承受能力。

在OSWorld-Verified(衡量模型通過屏幕截圖和鍵盤/鼠標(biāo)操作導(dǎo)航桌面環(huán)境的能力)中,GPT-5.4 達(dá)到了75.0%的成功率,遠(yuǎn)超GPT-5.2的47.3%,甚至超過了人類72.4%的表現(xiàn)。而在WebArena-Verified(測試瀏覽器使用)、 Online-Mind2Web(測試瀏覽器使用)、MMMU-Pro(測試模型的視覺理解和推理)測試中,GPT-5.4均取得新的最高分,在OmniDocBench上,GPT-5.4(無推理努力)的平均誤差為也要優(yōu)于 GPT-5.2。

GPT-5.4可以操作電腦處理郵件和日程。

據(jù)介紹,GPT-5.4結(jié)合了GPT-5.3-Codex的編碼優(yōu)勢與領(lǐng)先的知識(shí)工作和計(jì)算機(jī)使用能力,使得模型可以使用工具、迭代并以更少的人工干預(yù)推進(jìn)工作的長周期任務(wù)。在SWE-Bench Pro上,GPT-5.4與GPT-5.3-Codex持平或表現(xiàn)更佳,同時(shí)在各種推理努力下具有更低的延遲。

OpenAI還發(fā)布了一個(gè)名為 “Playwright (Interactive)” 的實(shí)驗(yàn)性Codex技能,允許Codex可視化調(diào)試Web和Electron應(yīng)用程序;它甚至可以在構(gòu)建應(yīng)用程序的同時(shí)對(duì)其進(jìn)行測試。

當(dāng)在Codex中開啟/fast模式時(shí),GPT-5.4的token生成速度可提高多達(dá)1.5倍。開發(fā)者也可以通過API 使用優(yōu)先處理 (priority processing) 以同樣快的速度訪問GPT-5.4。

同時(shí),在API中,GPT-5.4引入了工具搜索,模型在給定許多工具時(shí)(所有工具定義都預(yù)先包含在提示中)所需的token數(shù)量更少,并保留了緩存,請(qǐng)求更快、更便宜。

在ChatGPT中,GPT-5.4 Thinking今日起向Plus、團(tuán)隊(duì)和Pro用戶開放,代替GPT-5.2 Thinking。GPT-5.2 Thinking將在付費(fèi)用戶的模型選擇器的“遺留模型”中保留三個(gè)月,6月5日正式退役。企業(yè)和教育計(jì)劃用戶可以通過管理員設(shè)置啟用早期訪問。而GPT-5.4 Pro則供Pro和企業(yè)計(jì)劃使用。

費(fèi)用方面,API中,GPT-5.4每token價(jià)格高于GPT-5.2,批量和靈活定價(jià)為標(biāo)準(zhǔn)API費(fèi)率的一半,而優(yōu)先處理為標(biāo)準(zhǔn)API費(fèi)率的兩倍。輸入價(jià)格為2.5美元/百萬Token、輸出價(jià)格15美元/百萬Token,Pro版輸入價(jià)格則高達(dá)30美元/百萬Token,輸出價(jià)格180美元/百萬Token。

在Codex中,超過標(biāo)準(zhǔn)272K上下文窗口的請(qǐng)求也將按正常費(fèi)率的2倍計(jì)入使用限制。

GPT5.4發(fā)布后,AI寫作助手公司HyperWrite CEO馬特·舒默 (Matt Shumer)第一時(shí)間分享了試用感受,表示模型仍存在3方面的問題:前端界面遠(yuǎn)遜于Opus 4.6和Gemini 3.1 Pro;模型仍然會(huì)忽略一些顯而易見的現(xiàn)實(shí)世界背景,例如讓它規(guī)劃一次旅行的行程,乍一看行程安排完美無缺,但它卻忽略了選擇一些春假期間人潮擁擠的地點(diǎn),所以不得不重新運(yùn)行提示,并添加更多背景信息;此外,在OpenClaw中測試時(shí),它經(jīng)常在完成任務(wù)前突然停止。

OpenAI CEO山姆·奧特曼(Sam Altman)也隨即回應(yīng)稱將盡快解決這三個(gè)問題。

此前,OpenAI剛剛完成1100億美元的新一輪融資,投前估值高達(dá)7300億美元。據(jù)介紹,自今年年初以來,Codex的周活躍用戶增長了兩倍多,達(dá)到160萬,而ChatGPT周活躍用戶超過9億,個(gè)人訂閱用戶數(shù)超5000萬,付費(fèi)企業(yè)用戶超900萬。

奧特曼曾透露,OpenAI或?qū)⒃?027年上市。據(jù)此前外媒報(bào)道,OpenAI此次IPO(首次公開募股)的估值可能高達(dá)約1萬億美元,并最早可能在2026年下半年向監(jiān)管機(jī)構(gòu)提交上市申請(qǐng)。

    責(zé)任編輯:劉秀浩
    圖片編輯:樂浴峰
    校對(duì):張艷
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司