突破傳統(tǒng)算力困局，Ampere換種方式迎接AI算力挑戰(zhàn)

2023-09-26 11:52

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽全文

作者：老董

伴隨著AI技術(shù)的飛速發(fā)展，尤其大模型的出現(xiàn)，數(shù)據(jù)中心對(duì)AI算力需求急劇提高。而AI算力需求的激增的同時(shí)，帶來(lái)的是服務(wù)器供電需求的飛速增長(zhǎng)，以及為其提供制冷的冷卻系統(tǒng)能耗激增。

如何以高效節(jié)能的方式，滿足AI算力高速增長(zhǎng)的AI算力需求？在ODCC舉辦的2023開放數(shù)據(jù)中心大會(huì)上，經(jīng)過(guò)與Ampere的一番溝通交流，讓我們了解到一種突破傳統(tǒng)AI算力困局的全新解決方案。

Ampere Computing產(chǎn)品技術(shù)總監(jiān)孫開本在開放數(shù)據(jù)中心大會(huì)發(fā)表演講

傳統(tǒng)數(shù)據(jù)中心的困局

傳統(tǒng)數(shù)據(jù)中心正面臨著一個(gè)常見的問(wèn)題：受到供電的限制，每個(gè)機(jī)柜中只能上架有限的幾臺(tái)AI服務(wù)器，無(wú)法實(shí)現(xiàn)滿柜。目前標(biāo)準(zhǔn)的數(shù)據(jù)中心，每臺(tái)機(jī)柜內(nèi)通常部署8-9臺(tái)2U的服務(wù)器。然而，這些服務(wù)器的電力預(yù)算已經(jīng)不足，導(dǎo)致剩下的空間無(wú)法再放置更多的服務(wù)器。這就意味著，數(shù)據(jù)中心服務(wù)器的部署密度只有50%到60%。因此，許多云服務(wù)提供商面臨了部署密度不高、空間浪費(fèi)等問(wèn)題。

AI服務(wù)器的部署密度則更低。例如，目前市面上常見的某款GPU卡的功耗為75瓦，一臺(tái)服務(wù)器加四張卡就是300瓦，而一臺(tái)標(biāo)準(zhǔn)的通用服務(wù)器的功耗至少也要700～900瓦。因此，對(duì)于一個(gè)電力容量為8,000瓦的機(jī)柜，原本可以放10臺(tái)通用服務(wù)器，換成AI服務(wù)器可能就只能放5～6臺(tái)了；如果是高算力的AI服務(wù)器，甚至只能放1～2臺(tái)。針對(duì)上述挑戰(zhàn)，Ampere云原生處理器正是理想的選擇。

Ampere公司推出的云原生處理器具備先天的低功耗優(yōu)勢(shì)，可以幫助實(shí)現(xiàn)機(jī)柜電力與空間的更優(yōu)配比，提高部署密度。對(duì)于AI服務(wù)器，Ampere平臺(tái)的功耗降低了，同時(shí)提供與其它平臺(tái)相同的性能。這意味著在同樣的電力預(yù)算下，使用Ampere平臺(tái)可以放置更多的AI服務(wù)器，從而提高數(shù)據(jù)中心的部署密度。

Ampere的AI算力破局

目前，AI領(lǐng)域，服務(wù)器通常采用x86架構(gòu)CPU并配備GPU來(lái)滿足高計(jì)算需求。然而，隨著AI應(yīng)用的不斷發(fā)展，行業(yè)也開始尋找更高效的解決方案來(lái)降低能耗和成本。

AI有兩大方面，分別是AI訓(xùn)練和AI推理。目前，GPU被廣泛認(rèn)為是AI訓(xùn)練最合適的方案。

而在AI推理方面，目前也出現(xiàn)了為 AI 推理超額配置計(jì)算的情況，這可能導(dǎo)致高昂的成本支出（無(wú)論是硬件的單位成本，還是硬件運(yùn)行的電力成本）。因此，目前行業(yè)也會(huì)考慮一些能夠大幅降低能耗的其他方案。

Ampere表示，在AI訓(xùn)練的場(chǎng)景下，Ampere的云原生處理器與x86架構(gòu)的作用沒(méi)有區(qū)別。這意味著，在搭載最常用的GPU進(jìn)行訓(xùn)練時(shí)，Ampere的CPU與其他GPU一樣表現(xiàn)出良好的兼容性和性能。此外，Ampere表示已經(jīng)確保了其平臺(tái)與大多數(shù)GPU的兼容性, 目前大多數(shù)常用的GPU在Ampere平臺(tái)上都得到了支持。在大會(huì)的參觀交流中，Ampere說(shuō)道：“在訓(xùn)練層面，我們和x86 提供的性能是一樣的，唯一的區(qū)別就是能耗，用我們英文的口號(hào)就是Less Power Is the New Power （中文：低能耗，“芯”未來(lái)）。因?yàn)榇蠹矣玫亩际峭瑯拥腉PU，提供的性能一樣，區(qū)別主要來(lái)自CPU。 Ampere云原生處理器比傳統(tǒng)x86更節(jié)能”

更加適用于AI推理的Ampere

隨著AI的快速發(fā)展，大模型的應(yīng)用越來(lái)越普遍。由于巨大的參數(shù)量和大量的數(shù)據(jù)處理量，大模型需要的計(jì)算資源更多，對(duì)硬件的性能要求更高，同時(shí)還需要考慮如何降低能耗、提高計(jì)算效率等問(wèn)題。另外，大模型的訓(xùn)練和推理也需要更加復(fù)雜和高效的網(wǎng)絡(luò)架構(gòu)和算法，這也對(duì)硬件提出了更高的要求。

對(duì)于Ampere來(lái)說(shuō)，AI推理是機(jī)遇所在。在AI推理上有個(gè)“batch size”的概念，就是批量的大小。把小的工作積贊到一起，一次性給GPU處理，這是“大批量”的AI推理，通常GPU更合適。而在“小批量”的場(chǎng)景下，需對(duì)任務(wù)進(jìn)行及時(shí)響應(yīng)，通常延時(shí)要求比較高，但對(duì)吞吐量要求不高，CPU則更合適這種場(chǎng)景。

隨著AI熱潮來(lái)襲，Ampere的云原生處理器解決方案也受到許多關(guān)注。從 2020 年開始，Ampere早就已經(jīng)在AI領(lǐng)域開始布局，收購(gòu)了一家專注于AI推理優(yōu)化的公司OnSpecta，在模型算子、底層的指令方面進(jìn)行優(yōu)化。Ampere表示：“基于這種軟硬件協(xié)同優(yōu)化，我們現(xiàn)在的AI推理基本上翻了5倍。早在兩年多前，Ampere就組建了專門的AI團(tuán)隊(duì)，開展針對(duì)AI的一系列創(chuàng)新?！?/p>

目前，Ampere已經(jīng)有許多客戶都在基于Ampere Altra系列處理器進(jìn)行AI推理。針對(duì)AI的常用主流框架，比如TensorFlow、PyTorch和ONNX，Ampere進(jìn)行了優(yōu)化，性能得到了顯著提升。

此外，Ampere的產(chǎn)品不只適用于當(dāng)前常見的大型語(yǔ)言模型，也適用于過(guò)去幾年相對(duì)舊的模型。通過(guò)Ampere云原生處理器進(jìn)行AI推理，可獲得卓越的可擴(kuò)展性和性能，也打破了效率的瓶頸，而這正是令云服務(wù)提供商（CSPs）困擾的問(wèn)題，因?yàn)槭褂肎PU會(huì)帶來(lái)極高的能耗，而且容量擴(kuò)展會(huì)受到制約，可部署的服務(wù)器數(shù)量也會(huì)受到限制。而Ampere的云原生處理器通過(guò)提供卓越的性能和能效，恰好能夠解決這些行業(yè)痛點(diǎn)，尤其是對(duì)于AI推理。

更適于私域大模型的Ampere

隨著ChatGPT等大模型的普及，企業(yè)出于對(duì)安全、隱私信息的重視，對(duì)于私域大模型的私有化部署將越來(lái)越多。然而，在部署過(guò)程中，企業(yè)必須在算力基礎(chǔ)設(shè)施方面進(jìn)行合理的選擇。

在并發(fā)性方面，企業(yè)內(nèi)部使用的大模型需要同時(shí)處理的人數(shù)可能不如公開服務(wù)，沒(méi)有大量的并發(fā)處理；在延遲方面，企業(yè)內(nèi)部使用的大模型對(duì)延遲要求沒(méi)有公開服務(wù)那么高，帶寬也沒(méi)有那么擠兌，但對(duì)電力、數(shù)據(jù)中心資源節(jié)省很敏感。

用CPU做AI推理可以獲得諸多獨(dú)特的優(yōu)勢(shì)。第一，CPU適用于批量比較小的現(xiàn)代應(yīng)用類；第二，CPU軟件的靈活度更高，在軟件設(shè)計(jì)上更容易，因?yàn)椴恍枰布?，不需要第三方提供的?kù)，也很少有依賴性，獨(dú)立性更強(qiáng)；第三，使用CPU擺脫了OS驅(qū)動(dòng)，因?yàn)椴簧婕癎PU的一系列配套，復(fù)雜性也相應(yīng)降低。因此，Ampere認(rèn)為：“企業(yè)不必拘泥于常規(guī)慣性思維，一上來(lái)就是用GPU，應(yīng)該量體裁衣，配備適度的算力，以達(dá)到更好的性能和成本效益?！?/p>

相比傳統(tǒng) x86 處理器成本高、能耗大，最新的 Ampere 云原生處理器能夠助力打造高能效、高性能的 AI 推理應(yīng)用，是替代x86的理想方案，同時(shí)也是用于 AI 訓(xùn)練和大語(yǔ)言模型（LLM）推理 GPU 的高性價(jià)比之選。相比傳統(tǒng)的 x86 處理器，Ampere Altra 系列云原生處理器在 AI 推理方面擁有顯著的性能優(yōu)勢(shì)：針對(duì)計(jì)算機(jī)視覺工作負(fù)載，性能最高可提升 4 倍；針對(duì)常見的 NLP 工作負(fù)載，每瓦性能最高可提升 3 倍。

注重效率，更關(guān)注可持續(xù)發(fā)展

在數(shù)據(jù)中心，可持續(xù)發(fā)展是大家長(zhǎng)期關(guān)注的焦點(diǎn)之一。在今年的開放數(shù)據(jù)中心大會(huì)上，許多廠商也圍繞低碳、可持續(xù)、節(jié)能、土地資源、運(yùn)營(yíng)成本等問(wèn)題進(jìn)行了熱烈的探討。

在數(shù)據(jù)中心有一個(gè)“安全水位”的概念，它通常在30%的水平，再有大約20%的預(yù)留。簡(jiǎn)單來(lái)說(shuō)，這意味著如果有一個(gè)100個(gè)核的數(shù)據(jù)中心，為了保證數(shù)據(jù)中心的穩(wěn)定性和性能，一般只有50個(gè)核會(huì)真正投入運(yùn)行。但是，這也意味著有50%的CPU資源被閑置，閑置的背后也涉及到土地空間、運(yùn)營(yíng)效率等問(wèn)題。

Ampere的云原生處理器卻可以在保證性能的同時(shí)，將這個(gè)“安全水位”提高至70%，同時(shí)留下30%的緩存，從而提高利用率。Ampere舉了個(gè)例子：“比如一臺(tái)機(jī)架部署了100個(gè)核，如果是普通的x86 CPU，只能用50個(gè)。而如果部署的是Ampere云原生處理器，可以用100核。因此，機(jī)架部署就可以更滿，這就是我提到的資源利用率，這里的‘資源’包括機(jī)架和CPU既有的算力資源。” 也就是說(shuō)，在同體積空間里，基于Ampere處理器的機(jī)架不但密度更高，算力也更強(qiáng)。

在助力構(gòu)建可持續(xù)云計(jì)算方面，Ampere云原生處理器基于不同的架構(gòu)，兼具高性能與低能耗的綜合優(yōu)勢(shì)，打破了傳統(tǒng)架構(gòu)的限制，能夠助力數(shù)據(jù)中心實(shí)現(xiàn)效率提升三倍、整體占地面積減少 3 倍、單機(jī)架性能提升 2.5 倍、能耗降低 2.8 倍的優(yōu)化效果。

Ampere通過(guò)其云原生處理器技術(shù)不斷兌現(xiàn)其對(duì)性能和可持續(xù)性的承諾，向用戶提供環(huán)境友好的高性能系列微處理器，以可持續(xù)的方式突破能耗的限制。面對(duì)新的計(jì)算趨勢(shì)和可持續(xù)發(fā)展趨勢(shì)，讓我們且看Ampere如何引領(lǐng)創(chuàng)新，突破性能與能耗的束縛，推動(dòng)行業(yè)迎接變革，邁向計(jì)算的新象限。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#AI算力