中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

Google Cloud發(fā)布下一代TPU和GPU集群,增強AI Hypercomputer堆棧

2024-10-31 13:26
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

Google Cloud正在更新面向AI工作負載的AI Hypercomputer堆棧,并宣布推出了一系列新處理器和基礎(chǔ)設(shè)施軟件產(chǎn)品。

Google宣布推出了第六代張量處理單元Trillium TPU,以及即將推出由Nvidia H200 GPU驅(qū)動的新型A3 Ultra虛擬機,此外還有基于Axion Arm架構(gòu)的C4A VM,從今天正式面世。

谷歌還推出了新的軟件,包括一個名為Hypercompute Cluster的高度可擴展集群系統(tǒng),以及Hyperdisk ML塊存儲和并行文件系統(tǒng)。

Google Cloud副總裁、計算和AI基礎(chǔ)設(shè)施總經(jīng)理Mark Lohmeyer在一篇博文中表示,AI Hypercomputer堆棧為企業(yè)提供了一種方法,可以把工作負載優(yōu)化的硬件(例如谷歌的TPU和GPU)與一系列開源軟件集成在一起,以支持廣泛的AI工作負載。

他表示:“這種整體方法優(yōu)化了堆棧的每一層,在最廣泛的模型和應(yīng)用中實現(xiàn)了無與倫比的規(guī)模、性能和效率?!?/p>

Lohmeyer表示,谷歌希望提高AI Hypercomputer堆棧的性能,同時使其更易于使用,且運行成本更低。要做到這一點,就需要一套先進的新功能,這正是谷歌今天推出的。

這次最重要的發(fā)布是Trillium TPU,它為客戶提供了Nvidia主流GPU的一個強大替代品,并且已經(jīng)被谷歌用于支持高級AI應(yīng)用,例如Gemini系列大型語言模型。Trillium TPU現(xiàn)已面向所有客戶推出預(yù)覽版,與谷歌第五代TPU相比,Trillium TPU有了顯著改進。

例如,它在AI訓(xùn)練方面的性能提升了4倍,推理吞吐量方面提升了3倍,能源效率方面提升了67%,峰值計算性能提高了4.7倍,同時高帶寬內(nèi)存容量增加了1倍,芯片間互連帶寬也增加了1倍。

內(nèi)存和帶寬的增加,意味著Trillium可以運行更大的大型語言模型,具有更多的權(quán)重和更大的鍵值緩存。此外,它還允許芯片在訓(xùn)練和推理方面支持更廣泛的模型架構(gòu),成為訓(xùn)練Gemma 2和Llama等大型語言模型以及“Mixture-of-Experts”(MoE)機器學(xué)習(xí)技術(shù)的理想選擇。

Lohmeyer表示,Trillium可以擴展到一個配置了256個芯片的集群容納在一個高帶寬、低延遲的pod中,可以使用最先進的芯片間互連技術(shù)將其鏈接到其他pod,這就意味著客戶擁有無限的可能性,他們可以靈活地連接數(shù)百個pod和數(shù)萬個Trillium TPU,以打造“建筑規(guī)?!钡某売嬎銠C,并由每秒13千兆比特的Jupiter數(shù)據(jù)中心網(wǎng)絡(luò)提供支持。

“我們設(shè)計TPU是為了優(yōu)化性價比,Trillium也不例外,與v5e TPU相比,它的性能提高了1.8倍,與v5p相比,性能提高了約2倍,這使Trillium成為我們迄今為止性價比最高的TPU?!?/p>

采用Nvidia H100 GPU的A3 Ultra VM

當(dāng)然,Google Cloud的客戶并不局限于使用Trillium TPU,因為谷歌還是繼續(xù)大量購買Nvidia最強大的GPU。谷歌已經(jīng)使用Nvidia H100 GPU打造了最新的A3 Ultra VM,據(jù)說與現(xiàn)有的A3和A3 Mega VM相比,性能上有了顯著的提升。

Lohmeyer表示,A3 Ultra VM將于下個月登陸Google Cloud,利用谷歌新的Titanium ML網(wǎng)絡(luò)適配器和數(shù)據(jù)中心范圍的四向軌道對齊網(wǎng)絡(luò),提供高達每秒3.2兆比特的GPU到GPU傳輸流量。

因此,GPU到GPU帶寬的帶寬將提高2倍,大型語言模型推理工作負載性能提高2倍,內(nèi)存容量增加近2倍,帶寬增加1.4倍,這些都將讓客戶從中受益。就像TPU一樣,客戶可以選擇將數(shù)萬個GPU連接到一個密集的高性能集群中,以處理那些要求最苛刻的AI工作負載,從而擴展部署規(guī)模。

A3 Ultra VM可以被作為獨立的計算選項使用,也可通過Google Kubernetes Engine使用,后者為客戶提供了一個開放的、便攜的、可延伸和可擴展的AI訓(xùn)練和服務(wù)平臺。

基于Google Axion CPU的C4A VM

當(dāng)然谷歌承認,并非每個AI用例都需要如此強大的馬力,因為有很多類型的通用AI工作負載用較低的功率就可以運行起來。在這種情況下,優(yōu)化堆棧以降低成本是有意義的,而這時候新C4A VM就能派上用場了。

C4A VM是由Google Axion CPU提供支持的,后者是谷歌首款基于Arm架構(gòu)的數(shù)據(jù)中心CPU。

谷歌給出了一些有趣的說法,稱C4A VM的性價比比競爭對手云平臺上最新基于Arm的實例要高出10%,而且和當(dāng)前一代基于x86的實例相比也非常出色,性價比高出65%,對于通用工作負載(例如Web和應(yīng)用服務(wù)器、數(shù)據(jù)庫工作負載和容器化微服務(wù))而言,能效高出60%。

Constellation Research分析師Holger Mueller表示,這款新硬件進一步鞏固了Google Cloud作為AI開發(fā)者最佳云基礎(chǔ)設(shè)施平臺的地位。谷歌借助Trillium TPU在把TensorFlow等客戶算法應(yīng)用到客戶硬件方面,領(lǐng)先競爭對手三到四年。

Mueller表示:“除了性能改進之外,Trillium在能效方面提升67%,這看起來也非常重要,因為功耗因素對每個組織都變得越來越重要,看到網(wǎng)絡(luò)速度和帶寬的提高也令人欣喜,這可以滿足更大模型的需求?!?/p>

此外Mueller表示,Google Cloud的客戶會很高興知道谷歌正準(zhǔn)備支持Nvidia最強大的GPU,包括定于明年推出的Blackwell GPU。

“現(xiàn)在是成為Google Cloud客戶的一個好時機,而且有很多這樣的客戶,因為越來越多的企業(yè)已經(jīng)意識到這是一個值得使用的平臺,一旦這些更新的影響開始顯現(xiàn),我們可以期待看到Google Cloud在AI領(lǐng)域的領(lǐng)導(dǎo)地位得到進一步確認?!?/p>

支持堆棧

除了新硬件之外,谷歌還對組成AI Hypercomputer的底層存儲和網(wǎng)絡(luò)組件、以及將一切連接一起的軟件進行了重大改進。

谷歌通過最新的Hypercompute Cluster來簡化基礎(chǔ)設(shè)施和工作負載配置,這樣客戶就可以把數(shù)千個加速器作為一個單元部署和管理。這款軟件將在下個月推出,提供諸如支持密集的資源共置、有針對性的工作負載放置、高級維護以最大限度地減少工作負載中斷和超低延遲網(wǎng)絡(luò)等。

“Hypercompute Cluster旨在提供卓越的性能和彈性,因此您可以放心地運行那些最苛刻的AI和HPC工作負載,”Lohmeyer說。

與此同時,谷歌的Cloud Interconnect網(wǎng)絡(luò)服務(wù)正在更新一項圍繞“應(yīng)用感知”的新功能,旨在解決流量優(yōu)先級方面的難題。具體來說,它可以確保在網(wǎng)絡(luò)流量擁堵時,從Google Cloud流出的低優(yōu)先級流量不會對高優(yōu)先級流量產(chǎn)生不利的影響。谷歌表示,另一個好處是可以降低總擁有成本,因為它可以更有效地利用Cloud Interconnect上的可用帶寬。

其他方面,谷歌還對Titanium基礎(chǔ)設(shè)施進行了增強,后者是一個卸載技術(shù)系統(tǒng),可用于減少處理開銷并增加每個工作負載可用的計算和內(nèi)存資源量。增強之后的Titanium可以支持最苛刻的AI工作負載,利用新的Titanium ML網(wǎng)絡(luò)適配器來增加加速器到加速器的帶寬,而且還采用了谷歌的Jupiter光纖電路交換網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)可以提供高達每秒400千兆位的鏈接速度。

最后,谷歌宣布Hyperdisk ML塊存儲服務(wù)已經(jīng)全面上市,該服務(wù)于今年4月開始提供預(yù)覽版。這是一款專注于AI的存儲解決方案,針對系統(tǒng)級性能和成本效益進行了優(yōu)化,模型加載時間提高了11.9倍,AI訓(xùn)練時間加快了4.3倍。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司