中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

Nvidia SCADA技術(shù)將存儲控制路徑轉(zhuǎn)移至GPU

2025-11-27 16:46
來源:澎湃新聞·澎湃號·湃客
字號

Nvidia SCADA方案正在為AI推理工作負(fù)載引入GPU控制的存儲IO,相比GPUDirect,它在小塊傳輸方面將更加快速。

什么是SCADA技術(shù)

SCADA是Nvidia在"Storage-Next"架構(gòu)中提出的術(shù)語,全稱為Scaled Accelerated Data Access(規(guī)?;铀贁?shù)據(jù)訪問)。這是一種存儲數(shù)據(jù)IO方案,GPU服務(wù)器中的GPU可以直接啟動(dòng)和控制存儲IO。這與Nvidia現(xiàn)有的GPUDirect協(xié)議形成對比,后者用于加速存儲IO。

在最初的設(shè)計(jì)中,GPU被x86服務(wù)器視為輔助加速器,服務(wù)器控制著數(shù)據(jù)的流入和流出,同時(shí)擁有IO的控制路徑和數(shù)據(jù)路徑。GPUDirect將數(shù)據(jù)路徑從x86 CPU中分離出來,通過RDMA技術(shù)實(shí)現(xiàn)GPU內(nèi)存與NVMe驅(qū)動(dòng)器之間的直接數(shù)據(jù)傳輸,但CPU仍然控制著控制路徑。而SCADA更進(jìn)一步,將控制路徑也從CPU中分離出來。

AI訓(xùn)練與推理的不同需求

AI訓(xùn)練通常需要大批量數(shù)據(jù)傳輸,傳輸?shù)目刂坡窂綍r(shí)間相對較小。而AI推理需要小塊IO(小于4KB),每次傳輸?shù)目刂坡窂綍r(shí)間相對較大。Nvidia的研究發(fā)現(xiàn),讓GPU啟動(dòng)這類傳輸將減少時(shí)間并加速推理過程。SCADA正是這一發(fā)現(xiàn)的產(chǎn)物,Nvidia在2025年FMS論文中對此進(jìn)行了詳細(xì)討論。

生態(tài)系統(tǒng)合作伙伴的支持

Nvidia正與存儲生態(tài)系統(tǒng)合作伙伴合作,將使用SCADA的SSD和控制器產(chǎn)品化。SSD控制器制造商Marvell的閃存存儲產(chǎn)品營銷總監(jiān)Chander Chadha表示:"AI基礎(chǔ)設(shè)施的需求促使存儲公司開發(fā)專門支持GPU的SSD、控制器、NAND等技術(shù),重點(diǎn)是為AI推理提供更高的IOPS(每秒輸入/輸出操作次數(shù)),這將與CPU連接驅(qū)動(dòng)器有根本不同,后者更關(guān)注延遲和容量。"

Chadha解釋說:"GPU在SCADA框架內(nèi)啟動(dòng)存儲事務(wù),該框架圍繞內(nèi)存語義構(gòu)建",這意味著SSD控制器必須響應(yīng)加載和存儲請求。

他指出,當(dāng)前的SSD在IOPS方面響應(yīng)速度不夠快,"對于小于4KB的數(shù)據(jù)集,導(dǎo)致PCIe總線利用率不足,使GPU缺乏數(shù)據(jù)并浪費(fèi)周期。"GPU在推理工作負(fù)載中可能需要此類數(shù)據(jù)來維持超過1000個(gè)并行線程。相比之下,采用CPU啟動(dòng)傳輸?shù)腁I訓(xùn)練需要的并行線程較少。Chadha說:"GPU并行線程的數(shù)量要低得多——幾十個(gè)對幾千個(gè)——而且數(shù)據(jù)集規(guī)模更大。"

技術(shù)發(fā)展方向

更快的PCIe總線(如PCIe 6和7)將有所幫助,但SSD控制器也需要更新SCADA加速器功能和"針對較小負(fù)載的最佳糾錯(cuò)方案。"

Chadha預(yù)計(jì)將出現(xiàn)能夠處理兩種類型工作負(fù)載的SSD控制器,"能夠同時(shí)處理PCIe和以太網(wǎng)流量。"他還表示,"預(yù)計(jì)未來將看到與高帶寬閃存或CXL網(wǎng)絡(luò)接口相關(guān)的工作。"

美光的SCADA實(shí)踐

NAND和SSD供應(yīng)商美光也積極參與SCADA開發(fā)。該公司推出了PCIe Gen 6 SSD——9650,具有"小塊操作優(yōu)化"功能。7.68TB型號可提供高達(dá)540萬隨機(jī)讀取IOPS。美光在SC25展會(huì)上演示了44個(gè)這樣的SSD,使用SCADA編程模型實(shí)現(xiàn)了2.3億IOPS。

該設(shè)置使用連接到Broadcom PEX90000 PCIe Gen 6交換機(jī)的SSD,安裝在H3 Platform Falcon 6048 PCIe Gen 6服務(wù)器中。該服務(wù)器包含三個(gè)Nvidia H100 PCIe Gen 5 GPU。

美光表示,該系統(tǒng)"展示了從1到44個(gè)SSD的線性擴(kuò)展。"演示的2.3億最大IOPS數(shù)字非常接近44個(gè)驅(qū)動(dòng)器聚合的540萬隨機(jī)讀取IOPS的理論最大值2.376億。

美光總結(jié)道:"結(jié)合PCIe Gen6高性能SSD,這種SCADA架構(gòu)實(shí)現(xiàn)了向量數(shù)據(jù)庫、圖神經(jīng)網(wǎng)絡(luò)和大規(guī)模推理流水線等工作負(fù)載的實(shí)時(shí)數(shù)據(jù)訪問。"

補(bǔ)充說明

SCADA縮寫傳統(tǒng)上用于監(jiān)督控制和數(shù)據(jù)采集,指的是遙測領(lǐng)域。Nvidia的用法雖然不同,但具有相似性。

Q&A

Q1:Nvidia SCADA技術(shù)相比GPUDirect有什么優(yōu)勢?

A:SCADA技術(shù)將存儲控制路徑也轉(zhuǎn)移到GPU,而GPUDirect只轉(zhuǎn)移了數(shù)據(jù)路徑。對于AI推理中常見的小于4KB的小塊數(shù)據(jù)傳輸,SCADA能夠顯著減少傳輸時(shí)間,提高推理速度,因?yàn)镚PU可以直接啟動(dòng)和控制存儲操作。

Q2:為什么AI推理和AI訓(xùn)練對存儲IO的需求不同?

A:AI訓(xùn)練通常需要大批量數(shù)據(jù)傳輸,控制路徑時(shí)間相對較小,并行線程數(shù)量較少(幾十個(gè))。而AI推理需要小塊IO處理(小于4KB),每次傳輸?shù)目刂坡窂綍r(shí)間相對較大,需要維持超過1000個(gè)并行線程,因此對IOPS性能要求更高。

Q3:美光在SCADA技術(shù)演示中取得了什么成果?

A:美光使用44個(gè)PCIe Gen 6 SSD 9650,在H3 Platform Falcon 6048服務(wù)器上演示了2.3億IOPS的性能,接近理論最大值2.376億。這證明了SCADA架構(gòu)能夠?qū)崿F(xiàn)從1到44個(gè)SSD的線性擴(kuò)展,為向量數(shù)據(jù)庫和大規(guī)模推理流水線提供實(shí)時(shí)數(shù)據(jù)訪問。

    本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司