中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

Google I/O 2024: 從Gemini“宇宙”到Android 15

2024-05-15 17:17
來源:澎湃新聞·澎湃號(hào)·湃客
聽全文
字號(hào)

原創(chuàng) 蘇霍伊 甲子光年

Gemini貫穿一切。

作者|蘇霍伊

編輯|栗子

Gemini貫穿一切。

這是「甲子光年」在看完2024年Google I/O開發(fā)者大會(huì)的最大感受。

5月14日,谷歌2024年I/O開發(fā)者大會(huì)如期在加州山景城拉開帷幕。今年的主題完全圍繞人工智能展開,特別是生成式人工智能和其在各類應(yīng)用中的實(shí)際應(yīng)用,如 Workspace和Gmail的整合與優(yōu)化。

首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)在演講中一共說了121次“AI”,并喊出了一句嘹亮的口號(hào)——“整合全球信息,惠及所有民眾”。

現(xiàn)場(chǎng),谷歌發(fā)布了Gemini系列的最新AI模型:Gemini 1.5 Flash。

同時(shí),谷歌也宣布了Gemini 1.5 Pro升級(jí),全面支持Workspace,同時(shí)向全球開發(fā)者開放。Google Workspace辦公套件也宣布將進(jìn)一步整合Gemini,推出基于Gemini 1.5 Pro的多種技能,如可總結(jié)郵件內(nèi)容。Gmail也將深度整合Gemini,匯總郵件內(nèi)容并生成更好的回復(fù)。

1.AI模型:Gemimi宇宙

皮查伊在大會(huì)上公布了一系列AI模型的動(dòng)態(tài)。

首先是對(duì)Gemini 1.5 Pro模型進(jìn)行了升級(jí)。

Gemini 1.5 Pro模型已全球向開發(fā)者開放。原本它的上下文窗口是100萬tokens,現(xiàn)在增加到了200萬tokens,能處理更多的數(shù)據(jù)。

谷歌I/O大會(huì)現(xiàn)場(chǎng),來源:谷歌

用戶即使提供數(shù)千頁(yè)的文本或者幾個(gè)小時(shí)的視頻,Gemini 1.5 Pro也能夠理解內(nèi)容并回答相關(guān)的問題。這項(xiàng)升級(jí)將讓模型能同時(shí)處理2小時(shí)的視頻、22小時(shí)的音頻、超過60000行代碼,或超過140萬個(gè)單詞。

下個(gè)月Gemini 1.5 Pro還將在API層面推出新功能,包括視頻輸入、并行函數(shù)調(diào)用和文本緩存,以提高處理多個(gè)請(qǐng)求和問答文件時(shí)的效率。

隨后他介紹了Gemini系列新模型——Gemini 1.5 Flash。

這是一個(gè)比Gemini 1.5 Pro模型運(yùn)行更快,體積更小,更易于部署,支持處理多種類型的數(shù)據(jù),它專為開發(fā)者設(shè)計(jì)。

Gemini 1.5 Flash位于Gemini 1.5 Pro和Gemini 1.5 Nano之間,通過一種稱為“蒸餾”的過程,將Pro版本中的關(guān)鍵知識(shí)和技能轉(zhuǎn)移到一個(gè)更小的模型中,使其具備與Pro相同的多模態(tài)功能和100萬個(gè)token的長(zhǎng)上下文窗口。

Gemini 1.5 Flash現(xiàn)在就可以使用了。

DeepMind的聯(lián)合創(chuàng)始人兼CEO戴密斯·哈薩比斯(Demis Hassabis)提到,他們根據(jù)開發(fā)者的反饋,優(yōu)化了模型的響應(yīng)速度和成本效率。Gemini 1.5 Flash在處理大量數(shù)據(jù)方面表現(xiàn)出色,特別適用于聊天應(yīng)用、視頻處理和圖像字幕。

Gemini 1.5 Pro將在Alphabet的內(nèi)部測(cè)試實(shí)驗(yàn)室Workspace Labs進(jìn)行測(cè)試。Gemini 1.5 Flash也將在機(jī)器學(xué)習(xí)平臺(tái)Vertex AI上進(jìn)行試驗(yàn)和使用,該平臺(tái)使開發(fā)者能夠訓(xùn)練和部署AI應(yīng)用。

Gemini 1.5 Flash每百萬token的標(biāo)準(zhǔn)價(jià)格為0.7美元,輸出為1.05美元。對(duì)于較小的上下文(小于128k),有折扣價(jià):輸入為0.35美元/百萬token,輸出為0.53美元/百萬token。這比GPT-3.5 Turbo的價(jià)格(輸入0.5美元/百萬token,輸出0.15美元/百萬token)要高一些。

谷歌I/O大會(huì)現(xiàn)場(chǎng),來源:谷歌

Gemini 1.5 Pro是Google當(dāng)前最強(qiáng)大的模型,標(biāo)準(zhǔn)價(jià)格為每百萬token輸入7美元,輸出21美元。對(duì)于較小的上下文(同樣小于128k),折扣價(jià)格為輸入3.5美元/百萬token,輸出10.5美元/百萬token。相比于GPT-4o(輸入價(jià)格5美元/百萬token,輸出15美元/百萬token)略貴一些。

目前,谷歌正在籌備一款Project Astra的通用AI代理,這是一款通過智能手機(jī)攝像頭分析周圍世界并與用戶進(jìn)行交互的應(yīng)用。

Astra設(shè)計(jì)為能夠記住看到和聽到的內(nèi)容,從而理解上下文并采取行動(dòng)。為了提高實(shí)用性,谷歌優(yōu)化了其處理信息的速度,通過持續(xù)編碼視頻幀和結(jié)合視頻與語(yǔ)音輸入到事件時(shí)間線上,并緩存信息以實(shí)現(xiàn)高效回憶。

此外,谷歌還通過增強(qiáng)語(yǔ)音模型,讓Astra具有更廣泛的語(yǔ)調(diào),使其可以更自然地與用戶交流,無滯后或延遲。

在實(shí)際演示中,一個(gè)人使用手機(jī)的攝像頭掃描辦公室,與Astra通過語(yǔ)言交互,比如詢問“當(dāng)你看到有東西發(fā)出聲音時(shí),請(qǐng)告訴我。”Astra不僅能識(shí)別物體和代碼,還能實(shí)時(shí)進(jìn)行語(yǔ)音互動(dòng),展現(xiàn)了它的實(shí)用性和交互能力。

Project Astra展示了其出色的視覺理解能力和快速的響應(yīng)時(shí)間。一個(gè)人在辦公室中用攝像頭掃描其中的物品及場(chǎng)景,并用語(yǔ)音詢問它相關(guān)問題。與GPT-4o的功能異曲同工。

谷歌I/O大會(huì)現(xiàn)場(chǎng),來源:谷歌

Project Astra是AI技術(shù)在實(shí)用性和交互性方面的一個(gè)重大進(jìn)步,尤其是在增強(qiáng)現(xiàn)實(shí)和人機(jī)交互方面。它讓設(shè)備不僅是獲取信息的工具,而是能理解和參與我們?nèi)粘I畹幕锇椤;蛟S未來的一天,Astra可能會(huì)改變我們與技術(shù)的互動(dòng)方式,讓這種交互更個(gè)性化和直觀。

但谷歌透露,Astra的上線還需數(shù)月,且只有部分功能將被整合進(jìn)谷歌的產(chǎn)品中,比如XR眼鏡或個(gè)人助手。

在文生視頻領(lǐng)域,谷歌發(fā)布了名為Veo的視頻生成大模型。該模型能以多種電影和視覺風(fēng)格生成超過一分鐘時(shí)長(zhǎng)的高質(zhì)量1080p視頻,并憑借對(duì)自然語(yǔ)言和視覺語(yǔ)義的理解緊密代表用戶的創(chuàng)意愿景。

谷歌宣布今年晚些時(shí)候,能夠在本地運(yùn)行的多模態(tài)Gemini Nano模型將登陸Pixel手機(jī),提供文字、圖片、視頻、音頻的理解能力,并具有隱私保護(hù)功能。

同時(shí),谷歌即將在6月推出的新一代AI模型Gemma 2,將提供多種尺寸和全新架構(gòu),以滿足不同開發(fā)者的需求并實(shí)現(xiàn)卓越的性能和效率。

這款模型以其270億參數(shù)提供與更大模型相當(dāng)?shù)男阅?,同時(shí)優(yōu)化了部署成本,能在更少的計(jì)算資源上運(yùn)行。Gemma 2還支持廣泛的調(diào)優(yōu)工具,使得在多種平臺(tái)和硬件上的部署和微調(diào)變得更加簡(jiǎn)單高效。

2.多模態(tài)AI搜索

除了Gemini相關(guān)產(chǎn)品的發(fā)布外,谷歌搜索負(fù)責(zé)人Liz Reid宣布了一項(xiàng)重大更新,將AI技術(shù)更深入地整合到搜索引擎中。

谷歌I/O大會(huì)現(xiàn)場(chǎng),來源:谷歌

最新的變革是引入視頻搜索功能,允許用戶上傳視頻來展示他們需要解決的問題,Gemini技術(shù)將在互聯(lián)網(wǎng)各處尋找解決方案。

谷歌正在加強(qiáng)其AI搜索領(lǐng)域的立足點(diǎn),以應(yīng)對(duì)新興的AI搜索工具如Perplexity的競(jìng)爭(zhēng)。這些新興工具雖然吸引不少用戶,谷歌搜索仍未受太大影響。

事實(shí)上,谷歌的新AI搜索服務(wù)ESG已于去年5月發(fā)布,一年后向公眾開放,名為AI Overview。

AI Overview主要強(qiáng)調(diào)多模態(tài)功能,允許用戶通過簡(jiǎn)化語(yǔ)言或更詳細(xì)地調(diào)整搜索結(jié)果概述。此外,利用Gemini的多步推理能力,AI搜索可以處理復(fù)雜的多步查詢。例如同時(shí)尋找瑜伽工作室的位置、受歡迎程度和新會(huì)員優(yōu)惠。

谷歌還提供了計(jì)劃能力,使用戶可以一次性獲取完整的計(jì)劃,如為一群人制定三天的餐飲計(jì)劃。

谷歌的多模態(tài)搜索是其獨(dú)特之處,支持通過聲音搜索歌曲、圖片搜索產(chǎn)品,并結(jié)合視頻內(nèi)容進(jìn)行搜索,如識(shí)別舊貨店買的壞掉的唱片機(jī)的具體問題。

雖然這種聯(lián)想搜索功能已成為AI搜索的常態(tài),但谷歌通過更好的結(jié)構(gòu)化和界面設(shè)計(jì),提供了優(yōu)異的用戶體驗(yàn)。

盡管其他AI搜索引擎也具備類似功能,但谷歌的多模態(tài)搜索能力尤其突出,能夠結(jié)合聲音、圖片甚至視頻進(jìn)行搜索,極大地提升了搜索的靈活性和效率。

例如,用戶可以通過上傳視頻來解決復(fù)雜的技術(shù)問題,省去了尋找合適描述的時(shí)間和麻煩。盡管Perplexity等對(duì)手也在追趕多模態(tài)功能,但谷歌在這方面的優(yōu)勢(shì)明顯,結(jié)合其優(yōu)秀的界面和用戶體驗(yàn),使其在AI搜索領(lǐng)域繼續(xù)保持領(lǐng)先。

谷歌還將推出一項(xiàng)名為Gemini Advanced的訂閱服務(wù),讓用戶能夠創(chuàng)建個(gè)性化的Gemini版本,稱為Gems。

Gems類似于聊天機(jī)器人,可幫助用戶完成任務(wù)并具備特定的個(gè)性特征,類似于Character.AI平臺(tái)上的虛擬角色。谷歌表示,用戶可以將Gemini定制成健身教練、廚房助手、編程伙伴、創(chuàng)意寫作指導(dǎo)等,實(shí)現(xiàn)高度個(gè)性化的交互體驗(yàn)。

谷歌還表示,很快Gemini將能讓用戶針對(duì)屏幕上的視頻提問,并依據(jù)自動(dòng)字幕回答問題。對(duì)于付費(fèi)的Gemini Advanced用戶,系統(tǒng)還將能提取PDF文件內(nèi)容并提供所需信息。這些包括Gemini在Android上的多模態(tài)功能更新,預(yù)計(jì)在未來幾個(gè)月內(nèi)逐步推出。

3.Andriod 15與TPU Trillium

谷歌I/O大會(huì)現(xiàn)場(chǎng),來源:谷歌

當(dāng)然,對(duì)于谷歌重要的Android,谷歌也沒有落下。

I/O大會(huì)上,谷歌也發(fā)布了Android生態(tài)系統(tǒng)的“三大突破”:

Circle to search(畫圈圈搜索);

Gemini手機(jī)AI助手;

以及在手機(jī)本地運(yùn)行的AI。

Circle to search(畫圈圈搜索)功能。比如使用Android手機(jī)或平板電腦,現(xiàn)在可以直接在屏幕上圈出數(shù)學(xué)題并獲得解題幫助。谷歌的人工智能不會(huì)直接解答問題,以防學(xué)生作弊,而是會(huì)把問題分解成幾個(gè)步驟,使解題過程更簡(jiǎn)單。

這一功能已在Pixel和三星的部分設(shè)備上使用。

此外,谷歌還介紹了使用設(shè)備上的Gemini Nano AI技術(shù),幫助用戶識(shí)別并避免詐騙電話,系統(tǒng)會(huì)通過識(shí)別典型的詐騙對(duì)話模式并彈出實(shí)時(shí)警告。谷歌承諾,今年晚些時(shí)候會(huì)提供更多關(guān)于這項(xiàng)功能的細(xì)節(jié)。

Gemini AI的集成將Android操作系統(tǒng)的功能大幅增強(qiáng),不僅限于單一應(yīng)用,而是可以跨應(yīng)用提供服務(wù),比如允許用戶直接將圖像從Gemini拖放到其他應(yīng)用。

這表明,Android系統(tǒng)正在向一個(gè)更加智能和多功能的平臺(tái)轉(zhuǎn)型,其中Gemini將能訪問整個(gè)應(yīng)用程序庫(kù),實(shí)現(xiàn)與各種應(yīng)用如Uber和Doordash的深度集成。

Android 15 Beta 2將在明天正式推出。

在硬件方面,谷歌官宣推出第六代TPU—Trillium,峰值計(jì)算性能提高 4.7 倍,將在今年向云客戶提供。

“我們?cè)谶^去的25年投資建設(shè)了世界一流的技術(shù)基礎(chǔ)設(shè)施。從支持搜索的尖端硬件,到支持人工智能進(jìn)步的定制張量處理單元?!逼げ橐琳f。

谷歌I/O大會(huì)現(xiàn)場(chǎng),來源:谷歌

在Trillium的介紹中提到,這是性能最強(qiáng)和能效最高的TPU,其每個(gè)芯片的峰值計(jì)算性能比前代TPU v5e提高了4.7倍。這種顯著的性能提升不僅將加速AI模型的訓(xùn)練過程,還會(huì)提高運(yùn)行這些模型的效率,對(duì)谷歌的AI研發(fā)和服務(wù)有極大的促進(jìn)作用。

比如谷歌的AI模型Gemini就已經(jīng)在第四代和第五代TPU上進(jìn)行訓(xùn)練和服務(wù),顯示出TPU在支持先進(jìn)AI應(yīng)用中的關(guān)鍵作用。

此外,其他領(lǐng)先的人工智能公司如Anthropic也在使用谷歌的TPU來訓(xùn)練他們的模型,這進(jìn)一步驗(yàn)證了TPU在當(dāng)前AI研發(fā)領(lǐng)域的重要性。Pichai的聲明中提到了谷歌在過去25年中對(duì)技術(shù)基礎(chǔ)設(shè)施的投資,這種長(zhǎng)期投入不僅支持了谷歌搜索這樣的基礎(chǔ)服務(wù),還促進(jìn)了定制硬件如TPU的發(fā)展,從而推動(dòng)了人工智能技術(shù)的整體進(jìn)步。

通過這次大會(huì)的宣布,可以看出谷歌在保持其技術(shù)領(lǐng)先地位的同時(shí),也在不斷尋求通過硬件創(chuàng)新來鞏固其在AI領(lǐng)域的競(jìng)爭(zhēng)力,Trillium TPU的推出就是一個(gè)明顯的例證。

硬件的進(jìn)步不僅對(duì)谷歌自身的產(chǎn)品和服務(wù)利好,也為整個(gè)AI行業(yè)提供了更高效的計(jì)算資源。

(封面圖來源:谷歌)

END.

原標(biāo)題:《Google I/O 2024: 從Gemini“宇宙”到Android 15|甲子光年》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司