中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

突破傳統(tǒng)算力困局,Ampere換種方式迎接AI算力挑戰(zhàn)

2023-09-26 11:52
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
聽全文
字號(hào)

作者:老董

伴隨著AI技術(shù)的飛速發(fā)展,尤其大模型的出現(xiàn),數(shù)據(jù)中心對(duì)AI算力需求急劇提高。而AI算力需求的激增的同時(shí),帶來(lái)的是服務(wù)器供電需求的飛速增長(zhǎng),以及為其提供制冷的冷卻系統(tǒng)能耗激增。

如何以高效節(jié)能的方式,滿足AI算力高速增長(zhǎng)的AI算力需求?在ODCC舉辦的2023開放數(shù)據(jù)中心大會(huì)上,經(jīng)過(guò)與Ampere的一番溝通交流,讓我們了解到一種突破傳統(tǒng)AI算力困局的全新解決方案。

        Ampere Computing產(chǎn)品技術(shù)總監(jiān)孫開本在開放數(shù)據(jù)中心大會(huì)發(fā)表演講

 

傳統(tǒng)數(shù)據(jù)中心的困局

傳統(tǒng)數(shù)據(jù)中心正面臨著一個(gè)常見的問(wèn)題:受到供電的限制,每個(gè)機(jī)柜中只能上架有限的幾臺(tái)AI服務(wù)器,無(wú)法實(shí)現(xiàn)滿柜。目前標(biāo)準(zhǔn)的數(shù)據(jù)中心,每臺(tái)機(jī)柜內(nèi)通常部署8-9臺(tái)2U的服務(wù)器。然而,這些服務(wù)器的電力預(yù)算已經(jīng)不足,導(dǎo)致剩下的空間無(wú)法再放置更多的服務(wù)器。這就意味著,數(shù)據(jù)中心服務(wù)器的部署密度只有50%到60%。因此,許多云服務(wù)提供商面臨了部署密度不高、空間浪費(fèi)等問(wèn)題。

AI服務(wù)器的部署密度則更低。例如,目前市面上常見的某款GPU卡的功耗為75瓦,一臺(tái)服務(wù)器加四張卡就是300瓦,而一臺(tái)標(biāo)準(zhǔn)的通用服務(wù)器的功耗至少也要700~900瓦。因此,對(duì)于一個(gè)電力容量為8,000瓦的機(jī)柜,原本可以放10臺(tái)通用服務(wù)器,換成AI服務(wù)器可能就只能放5~6臺(tái)了;如果是高算力的AI服務(wù)器,甚至只能放1~2臺(tái)。針對(duì)上述挑戰(zhàn),Ampere云原生處理器正是理想的選擇。

Ampere公司推出的云原生處理器具備先天的低功耗優(yōu)勢(shì),可以幫助實(shí)現(xiàn)機(jī)柜電力與空間的更優(yōu)配比,提高部署密度。對(duì)于AI服務(wù)器,Ampere平臺(tái)的功耗降低了,同時(shí)提供與其它平臺(tái)相同的性能。這意味著在同樣的電力預(yù)算下,使用Ampere平臺(tái)可以放置更多的AI服務(wù)器,從而提高數(shù)據(jù)中心的部署密度。

Ampere的AI算力破局

目前,AI領(lǐng)域,服務(wù)器通常采用x86架構(gòu)CPU并配備GPU來(lái)滿足高計(jì)算需求。然而,隨著AI應(yīng)用的不斷發(fā)展,行業(yè)也開始尋找更高效的解決方案來(lái)降低能耗和成本。

AI有兩大方面,分別是AI訓(xùn)練和AI推理。目前,GPU被廣泛認(rèn)為是AI訓(xùn)練最合適的方案。

而在AI推理方面,目前也出現(xiàn)了為 AI 推理超額配置計(jì)算的情況,這可能導(dǎo)致高昂的成本支出(無(wú)論是硬件的單位成本,還是硬件運(yùn)行的電力成本)。因此,目前行業(yè)也會(huì)考慮一些能夠大幅降低能耗的其他方案。

Ampere表示,在AI訓(xùn)練的場(chǎng)景下,Ampere的云原生處理器與x86架構(gòu)的作用沒(méi)有區(qū)別。這意味著,在搭載最常用的GPU進(jìn)行訓(xùn)練時(shí),Ampere的CPU與其他GPU一樣表現(xiàn)出良好的兼容性和性能。此外,Ampere表示已經(jīng)確保了其平臺(tái)與大多數(shù)GPU的兼容性, 目前大多數(shù)常用的GPU在Ampere平臺(tái)上都得到了支持。在大會(huì)的參觀交流中,Ampere說(shuō)道:“在訓(xùn)練層面,我們和x86 提供的性能是一樣的,唯一的區(qū)別就是能耗,用我們英文的口號(hào)就是Less Power Is the New Power (中文:低能耗,“芯”未來(lái))。因?yàn)榇蠹矣玫亩际峭瑯拥腉PU,提供的性能一樣,區(qū)別主要來(lái)自CPU。 Ampere云原生處理器比傳統(tǒng)x86更節(jié)能”

更加適用于AI推理的Ampere

隨著AI的快速發(fā)展,大模型的應(yīng)用越來(lái)越普遍。由于巨大的參數(shù)量和大量的數(shù)據(jù)處理量,大模型需要的計(jì)算資源更多,對(duì)硬件的性能要求更高,同時(shí)還需要考慮如何降低能耗、提高計(jì)算效率等問(wèn)題。另外,大模型的訓(xùn)練和推理也需要更加復(fù)雜和高效的網(wǎng)絡(luò)架構(gòu)和算法,這也對(duì)硬件提出了更高的要求。

對(duì)于Ampere來(lái)說(shuō),AI推理是機(jī)遇所在。在AI推理上有個(gè)“batch size”的概念,就是批量的大小。把小的工作積贊到一起,一次性給GPU處理,這是“大批量”的AI推理,通常GPU更合適。而在“小批量”的場(chǎng)景下,需對(duì)任務(wù)進(jìn)行及時(shí)響應(yīng),通常延時(shí)要求比較高,但對(duì)吞吐量要求不高,CPU則更合適這種場(chǎng)景。

隨著AI熱潮來(lái)襲,Ampere的云原生處理器解決方案也受到許多關(guān)注。從 2020 年開始,Ampere早就已經(jīng)在AI領(lǐng)域開始布局,收購(gòu)了一家專注于AI推理優(yōu)化的公司OnSpecta,在模型算子、底層的指令方面進(jìn)行優(yōu)化。Ampere表示:“基于這種軟硬件協(xié)同優(yōu)化,我們現(xiàn)在的AI推理基本上翻了5倍。早在兩年多前,Ampere就組建了專門的AI團(tuán)隊(duì),開展針對(duì)AI的一系列創(chuàng)新?!?/p>

目前,Ampere已經(jīng)有許多客戶都在基于Ampere Altra系列處理器進(jìn)行AI推理。針對(duì)AI的常用主流框架,比如TensorFlow、PyTorch和ONNX,Ampere進(jìn)行了優(yōu)化,性能得到了顯著提升。

此外,Ampere的產(chǎn)品不只適用于當(dāng)前常見的大型語(yǔ)言模型,也適用于過(guò)去幾年相對(duì)舊的模型。通過(guò)Ampere云原生處理器進(jìn)行AI推理,可獲得卓越的可擴(kuò)展性和性能,也打破了效率的瓶頸,而這正是令云服務(wù)提供商(CSPs)困擾的問(wèn)題,因?yàn)槭褂肎PU會(huì)帶來(lái)極高的能耗,而且容量擴(kuò)展會(huì)受到制約,可部署的服務(wù)器數(shù)量也會(huì)受到限制。而Ampere的云原生處理器通過(guò)提供卓越的性能和能效,恰好能夠解決這些行業(yè)痛點(diǎn),尤其是對(duì)于AI推理。

更適于私域大模型的Ampere

隨著ChatGPT等大模型的普及,企業(yè)出于對(duì)安全、隱私信息的重視,對(duì)于私域大模型的私有化部署將越來(lái)越多。然而,在部署過(guò)程中,企業(yè)必須在算力基礎(chǔ)設(shè)施方面進(jìn)行合理的選擇。

在并發(fā)性方面,企業(yè)內(nèi)部使用的大模型需要同時(shí)處理的人數(shù)可能不如公開服務(wù),沒(méi)有大量的并發(fā)處理;在延遲方面,企業(yè)內(nèi)部使用的大模型對(duì)延遲要求沒(méi)有公開服務(wù)那么高,帶寬也沒(méi)有那么擠兌,但對(duì)電力、數(shù)據(jù)中心資源節(jié)省很敏感。

用CPU做AI推理可以獲得諸多獨(dú)特的優(yōu)勢(shì)。第一,CPU適用于批量比較小的現(xiàn)代應(yīng)用類;第二,CPU軟件的靈活度更高,在軟件設(shè)計(jì)上更容易,因?yàn)椴恍枰布?,不需要第三方提供的?kù),也很少有依賴性,獨(dú)立性更強(qiáng);第三,使用CPU擺脫了OS驅(qū)動(dòng),因?yàn)椴簧婕癎PU的一系列配套,復(fù)雜性也相應(yīng)降低。因此,Ampere認(rèn)為:“企業(yè)不必拘泥于常規(guī)慣性思維,一上來(lái)就是用GPU,應(yīng)該量體裁衣,配備適度的算力,以達(dá)到更好的性能和成本效益?!?/p>

相比傳統(tǒng) x86 處理器成本高、能耗大,最新的 Ampere 云原生處理器能夠助力打造高能效、高性能的 AI 推理應(yīng)用,是替代x86的理想方案,同時(shí)也是用于 AI 訓(xùn)練和大語(yǔ)言模型(LLM)推理 GPU 的高性價(jià)比之選。相比傳統(tǒng)的 x86 處理器,Ampere Altra 系列云原生處理器在 AI 推理方面擁有顯著的性能優(yōu)勢(shì):針對(duì)計(jì)算機(jī)視覺工作負(fù)載,性能最高可提升 4 倍;針對(duì)常見的 NLP 工作負(fù)載,每瓦性能最高可提升 3 倍。

注重效率,更關(guān)注可持續(xù)發(fā)展

在數(shù)據(jù)中心,可持續(xù)發(fā)展是大家長(zhǎng)期關(guān)注的焦點(diǎn)之一。在今年的開放數(shù)據(jù)中心大會(huì)上,許多廠商也圍繞低碳、可持續(xù)、節(jié)能、土地資源、運(yùn)營(yíng)成本等問(wèn)題進(jìn)行了熱烈的探討。

在數(shù)據(jù)中心有一個(gè)“安全水位”的概念,它通常在30%的水平,再有大約20%的預(yù)留。簡(jiǎn)單來(lái)說(shuō),這意味著如果有一個(gè)100個(gè)核的數(shù)據(jù)中心,為了保證數(shù)據(jù)中心的穩(wěn)定性和性能,一般只有50個(gè)核會(huì)真正投入運(yùn)行。但是,這也意味著有50%的CPU資源被閑置,閑置的背后也涉及到土地空間、運(yùn)營(yíng)效率等問(wèn)題。

Ampere的云原生處理器卻可以在保證性能的同時(shí),將這個(gè)“安全水位”提高至70%,同時(shí)留下30%的緩存,從而提高利用率。Ampere舉了個(gè)例子:“比如一臺(tái)機(jī)架部署了100個(gè)核,如果是普通的x86 CPU,只能用50個(gè)。而如果部署的是Ampere云原生處理器,可以用100核。因此,機(jī)架部署就可以更滿,這就是我提到的資源利用率,這里的‘資源’包括機(jī)架和CPU既有的算力資源。” 也就是說(shuō),在同體積空間里,基于Ampere處理器的機(jī)架不但密度更高,算力也更強(qiáng)。

在助力構(gòu)建可持續(xù)云計(jì)算方面,Ampere云原生處理器基于不同的架構(gòu),兼具高性能與低能耗的綜合優(yōu)勢(shì),打破了傳統(tǒng)架構(gòu)的限制,能夠助力數(shù)據(jù)中心實(shí)現(xiàn)效率提升三倍、整體占地面積減少 3 倍、單機(jī)架性能提升 2.5 倍、能耗降低 2.8 倍的優(yōu)化效果。

Ampere通過(guò)其云原生處理器技術(shù)不斷兌現(xiàn)其對(duì)性能和可持續(xù)性的承諾,向用戶提供環(huán)境友好的高性能系列微處理器,以可持續(xù)的方式突破能耗的限制。面對(duì)新的計(jì)算趨勢(shì)和可持續(xù)發(fā)展趨勢(shì),讓我們且看Ampere如何引領(lǐng)創(chuàng)新,突破性能與能耗的束縛,推動(dòng)行業(yè)迎接變革,邁向計(jì)算的新象限。

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司