中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

Google I/O 2026炸場:世界模型、AI數(shù)字水印來了!Gemini正式進(jìn)入“Agent時代

2026-05-20 14:59
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

北京時間5月20日凌晨,谷歌年度開發(fā)者大會Google I/O 2026在加州山景城拉開帷幕,谷歌 CEO 桑達(dá)爾?皮查伊正式宣布:我們已經(jīng)進(jìn)入了"智能體Gemini時代"。

十年 AI-first,從實驗室走向數(shù)十億人

"十年前我們將公司轉(zhuǎn)向AI-first,今天我們?nèi)匀徽J(rèn)為AI是推進(jìn)我們使命、大規(guī)模改善人們生活的最深刻方式。"皮查伊在開場演講中說道。

他用一組震撼的數(shù)據(jù)展示了過去一年AI的爆發(fā)式增長:

谷歌每月處理的tokens從兩年前的9.7萬億,增長到去年的480萬億,今天已經(jīng)突破3200萬億(3.2 quadrillion),增長了7倍;

Gemini應(yīng)用月活用戶從去年的4億,增長到今天的9億多,日請求量增長了7倍;

搜索AI Mode推出僅一年,月活用戶已超過10億,成為谷歌歷史上增長最快的功能之一;

超過850萬開發(fā)者每月使用谷歌的AI模型構(gòu)建應(yīng)用。

支撐這一切的是谷歌史無前例的基礎(chǔ)設(shè)施投入。皮查伊透露,2022年谷歌的資本支出為310億美元,2026年這一數(shù)字將達(dá)到1800-1900億美元,增長了近6倍。

首次推出“雙芯片策略”:推倒數(shù)據(jù)中心的隱形物理墻

面對全球性的電力緊缺與單一數(shù)據(jù)中心容量逼近物理極限的殘酷現(xiàn)實,谷歌首次推出了“雙芯片策略”,將底層硬件架構(gòu)劃分為互不干擾的兩條主線:專門用于大規(guī)模預(yù)訓(xùn)練的TPU 8t,以及針對高并發(fā)推理極限優(yōu)化的TPU 8i。

作為訓(xùn)練怪獸,TPU 8t帶來了較上一代接近三倍的原始算力提升。但更根本的轉(zhuǎn)變在于底層軟件棧的徹底解放。通過底層分布式框架JAX與Pathways的深度重構(gòu),谷歌向行業(yè)昭示了一種全新的可能:模型訓(xùn)練不再受限于單一巨型數(shù)據(jù)中心的物理圍墻。依靠這兩項核心技術(shù)的全網(wǎng)調(diào)度,谷歌成功在全網(wǎng)范圍內(nèi)實現(xiàn)了跨越多個物理站點的協(xié)同訓(xùn)練,在全球范圍內(nèi)無縫串聯(lián)起超過100萬個TPU。

這一技術(shù)突破直接瓦解了過去堆砌單體機房的軍備競賽。對于模型構(gòu)建者而言,這意味著超大規(guī)模模型的訓(xùn)練周期從過去的數(shù)月縮短至數(shù)周。而負(fù)責(zé)推理的TPU 8i則一擊切中了商業(yè)化落地的最大痛點——延遲。谷歌在過去27年的搜索工程中提煉出的核心信條在這顆芯片上體現(xiàn)得淋漓盡致:在AI時代,延遲依然決定著應(yīng)用的生死。TPU 8i在推理執(zhí)行的每一個微小步驟上都進(jìn)行了硬件級加速,為上層智能體的實時響應(yīng)提供了可能。

Gemini 3.5與Gemini Omni:從文本概率到物理世界模擬器的升維

基礎(chǔ)設(shè)施的躍遷直接催生了全新底座模型家族的落地。谷歌在會場正式揭曉了Gemini 3.5系列模型,其演進(jìn)策略展現(xiàn)出極強的針對性:不再一味追求參數(shù)體量的空前膨脹,而是全面轉(zhuǎn)向“速度、經(jīng)濟性與行動力”的平衡。

作為即日起全球上線的默認(rèn)主力,Gemini 3.5 Flash的表現(xiàn)幾乎打破了行業(yè)對輕量化模型的認(rèn)知。在多項基準(zhǔn)測試中,它的表現(xiàn)全面超越了上一代的旗艦主力Gemini 3.1 Pro。尤其在編程能力與全新引入的GDPVal(經(jīng)濟價值評估測試)中,Gemini 3.5 Flash展現(xiàn)出了顯著優(yōu)勢。

在維持頂尖智能的同時,Gemini 3.5 Flash在每秒輸出Token的數(shù)量上,達(dá)到了其他同級別前沿模型的四倍。這種極端的性價比優(yōu)勢,是谷歌試圖在開發(fā)者層面對開源與閉源競爭對手實施降維打擊的戰(zhàn)略底牌。

更具顛覆性的底層突破來自全新亮相的Gemini Omni家族。這并非傳統(tǒng)意義上的多模態(tài)模型,谷歌將其定義為一個真正意義上的“世界模型”。

Gemini Omni的本質(zhì)是一套能夠?qū)⑷魏屋斎肽B(tài)(文本、圖像、視頻、音頻)轉(zhuǎn)化為任何輸出模態(tài)的統(tǒng)一網(wǎng)絡(luò)。作為該家族首款落地的產(chǎn)品,Gemini Omni Flash不僅能完美理解輸入的各種視聽信號,更具備了對物理世界的直觀感知能力。谷歌在現(xiàn)場演示中表明,該模型已經(jīng)能夠理解動力學(xué)規(guī)律、動能轉(zhuǎn)換與重力效應(yīng),并被直接應(yīng)用于前沿機器人的訓(xùn)練中。

在面向用戶的體驗層面,Gemini Omni Flash將推理與內(nèi)容生成的邊界徹底模糊。在一場演示中,用戶僅通過自然的對話溝通,就能讓Omni將一段復(fù)雜的關(guān)于氨基酸的定格動畫短片進(jìn)行精準(zhǔn)編輯,無論是替換背景、調(diào)整分鏡還是改變角色的物理運動軌跡,模型均能通過對話實時渲染輸出高品質(zhì)的電影級視頻。Omni的出現(xiàn),實際上將Nano、Genie和Veo等獨立模型的能力完全熔煉于一爐,完成了多模態(tài)向全模態(tài)的升維。

Gemini Spark——7*24小時在線的個人AI智能體

模型的升維引發(fā)了應(yīng)用層交互邏輯的劇烈塌陷。谷歌在會上重磅推出了面向大眾的全面智能力量——Gemini Spark,一個能夠7×24小時在后臺自主運轉(zhuǎn)的個人AI智能體。

與過往“用戶輸入提示詞、AI做出單次反饋”的被動交互模式截然不同,Gemini Spark依托于谷歌全新的Antigravity(反重力)開發(fā)平臺,具備了極為罕見的主動性特征。它像一個永遠(yuǎn)不知疲倦的數(shù)字秘書,隱匿在系統(tǒng)后臺,甚至在用戶合上筆記本電腦或鎖死手機屏幕時,依然在云端不間斷地處理復(fù)雜任務(wù)。它可以自主翻閱用戶上個月的銀行賬單,精準(zhǔn)捕捉并標(biāo)記出那些隱藏很深的連續(xù)扣費訂閱;也可以實時檢索全家人的郵件與日程,在清晨自動生成一份毫無冗余、極具行動導(dǎo)向的家庭日常簡報。

這種深入到系統(tǒng)底層的自主性,建立在一項重大的生態(tài)聯(lián)盟之上。Gemini Spark不僅打通了谷歌自身的Workspace組件,更通過MCP深度集成了包括Adobe、Asana、Dropbox、Lyft、Uber、Zillow在內(nèi)的超過30款主流第三方應(yīng)用。通過這一協(xié)議,智能體徹底擺脫了應(yīng)用孤島的限制,能夠跨平臺串聯(lián)起復(fù)雜的行動鏈條。

為了防止自主智能體在執(zhí)行任務(wù)時失控,谷歌同步推出了配套的底層合規(guī)防御系統(tǒng)——Agent Payments Protocol(智能體支付協(xié)議,簡稱AP2)。作為Gemini Spark與所有外部商業(yè)接口交互的最高護欄,AP2嚴(yán)格限制了AI在未經(jīng)用戶顯式授權(quán)或知情的情況下的任何越權(quán)消費或財務(wù)承諾行為,確保了技術(shù)在向高自主性演進(jìn)過程中的金融資產(chǎn)安全。

在開發(fā)者端,谷歌Flow的推出則讓“Vibe Code”的概念走向大眾。開發(fā)者乃至完全不懂代碼的創(chuàng)意人員,如今可以直接在Flow環(huán)境中,通過純粹的意圖對話、手繪草圖或者視聽素材的堆疊,實時構(gòu)建出各種復(fù)雜的視覺工具、定格動畫圖層或視頻特效工具。開發(fā)不再是枯燥的語法編譯,而變成了對創(chuàng)意的實時捕捉與即時顯現(xiàn)。

從多模態(tài)搜索到全場景AI的野心

在更廣泛的生態(tài)落地層面,谷歌展現(xiàn)出了全面解構(gòu)傳統(tǒng)互聯(lián)網(wǎng)入口的意圖。谷歌搜索的AI Mode引入了名為Generative UI(生成式用戶界面)的技術(shù)。

現(xiàn)在,當(dāng)用戶在搜索框中提出一個復(fù)雜的系統(tǒng)性問題——例如探究太陽系行星的軌道周期時,搜索引擎返回的不再是冰冷的鏈接和一段總結(jié)性的文字,而是基于當(dāng)前問題在前端實時組裝、動態(tài)渲染出來的一個具備完整交互功能的動態(tài)星體軌道模擬組件。網(wǎng)絡(luò)界面不再是預(yù)先設(shè)計好的死板網(wǎng)頁,而是根據(jù)用戶意圖即時生成的專屬應(yīng)用程序。結(jié)合通用購物車與信息智能體的協(xié)同,整個搜索體驗正在轉(zhuǎn)變?yōu)橐粋€閉環(huán)的決策與執(zhí)行引擎。

為了應(yīng)對生成式內(nèi)容泛濫可能導(dǎo)致的信任危機,谷歌宣布將SynthID數(shù)字水印技術(shù)從原有的多模態(tài)生成軟件全面擴大至Google Search和Chrome瀏覽器底層。用戶可以通過“圈選搜索”或直接右鍵點擊,在毫秒級時間內(nèi)調(diào)取C2PA內(nèi)容憑證,死死卡住虛假合成內(nèi)容的生存空間。

而在辦公與日常高頻場景中,谷歌也推出了各種新的功能:

Docs Live:允許用戶通過極其隨意的語音傾倒,由Gemini在后臺實時將其梳理為結(jié)構(gòu)嚴(yán)密、邏輯嚴(yán)謹(jǐn)、毫無口語碎屑的專業(yè)級正式文書。

Google Pics:成為全新的深度圖像生成與生成式編輯核心組件,徹底重構(gòu)了      Workspace 內(nèi)部的視覺資產(chǎn)創(chuàng)作鏈路。

Daily Brief:作為開箱即用的常駐Agent,在清晨為用戶提供最具優(yōu)先級的日程和任務(wù)穿透式編排。

現(xiàn)場,谷歌還宣布與三星達(dá)成深度硬件合作,并聯(lián)合時尚眼鏡品牌Warby Parker及Gentle Monster,共同推出了搭載Gemini Intelligence的全新智能眼鏡。

在大模型之家看來,谷歌真正想推向給市場的,是一整套新的工作方式:模型負(fù)責(zé)理解,代理負(fù)責(zé)執(zhí)行,產(chǎn)品負(fù)責(zé)把執(zhí)行嵌進(jìn)每一個高頻場景里。Search、Gmail、Docs、YouTube、Shopping、Android、Chrome,這些原本分散的入口,正在被同一套Gemini邏輯重新串起來。

如今的AI競爭,已經(jīng)不是誰能生成一段更像人的回答,而是誰能在用戶還沒意識到的時候,把事情默默辦完。按谷歌自己的說法,這些能力會按地區(qū)和訂閱層級分批開放;但從產(chǎn)品線的密度和更新速度看,谷歌已經(jīng)把牌面擺得很清楚:它要爭奪的,不只是模型榜單,更是下一代操作系統(tǒng)式的入口。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司