- +1
以“算存?zhèn)饕惑w化”,構筑超大規(guī)模智算集群新基座
作者:王聰彬
當大模型成為新一輪技術競賽的核心載體,AI工作負載正在迅速改寫基礎設施的底層邏輯。從訓練到推理,算力、數(shù)據(jù)吞吐與系統(tǒng)協(xié)同被同時推向極限,也讓傳統(tǒng)IT架構迅速顯露出“不適配”的一面。
計算側,大模型熱潮帶動了算力的快速堆疊,無論是GPU,還是國產(chǎn)算力卡,行業(yè)普遍采取規(guī)模優(yōu)先的路徑。但實踐很快表明,單純堆疊硬件并不能自動轉化為有效算力,如果缺乏對資源的高效調度與利用,反而會成為制約AI發(fā)展的關鍵瓶頸。
存儲側,AI計算本質上是對海量數(shù)據(jù)的持續(xù)調用與處理,存儲也成為直接影響計算效率的重要一環(huán)。如何讓存儲能力與算力規(guī)模相匹配,在數(shù)據(jù)吞吐、訪問延遲等維度實現(xiàn)協(xié)同優(yōu)化,是當前基礎設施演進中的另一關鍵命題。
網(wǎng)絡側,無論是計算節(jié)點內部互聯(lián),還是存儲系統(tǒng)自身架構,最終都需要通過網(wǎng)絡實現(xiàn)高效協(xié)同。所以網(wǎng)絡不僅要在帶寬、時延等技術指標上持續(xù)突破,更需要肩負起計算與存儲的有效結合。
“AI基礎設施的挑戰(zhàn),已經(jīng)成為計算、存儲與網(wǎng)絡三者之間的深度耦合,只有實現(xiàn)‘存算傳一體化’,才能最大化算力建設的投入回報?!笔锕庑畔a(chǎn)業(yè)(北京)有限公司總裁助理、分布式存儲產(chǎn)品部總經(jīng)理石靜說道。
近期,中科曙光發(fā)布首款全棧自研400G無損高速網(wǎng)絡scaleFabric,該網(wǎng)絡基于原生RDMA架構,從底層的112G SerDes IP、硬件設備到上層的管理軟件實現(xiàn)100%自主研發(fā)。并結合存儲系統(tǒng)的超級隧道技術,構建起“算存?zhèn)饕惑w化”的緊耦合架構,打破傳統(tǒng)I/O瓶頸,讓國產(chǎn)智算大集群不僅“算得快”,更“算得高效”。

算存?zhèn)饕惑w化,重塑AI時代的數(shù)據(jù)供給體系
隨著大模型參數(shù)規(guī)模持續(xù)攀升,萬卡級算力集群正逐步成為訓練的主流形態(tài),這也意味著上萬塊AI卡需要在高一致性與高同步性的要求下協(xié)同運行。
針對這一挑戰(zhàn),中科曙光通過將分布式存儲超級隧道技術與自研RDMA網(wǎng)絡結合,以算存?zhèn)鲝妳f(xié)同進一步突破智算集群效能。具體來看,在硬件層面,為不同數(shù)據(jù)域配置獨享的RDMA網(wǎng)絡連接與PCIe通道,并結合NUMA親和性優(yōu)化資源分配,避免相互間的并發(fā)沖突;在軟件層面,實現(xiàn)線程、內存與存儲資源的綁定調度。通過軟硬件協(xié)同優(yōu)化設計,有效減少網(wǎng)絡擁堵和資源競爭,讓數(shù)據(jù)沿最優(yōu)路徑高速流動,為AI計算持續(xù)提供高效、穩(wěn)定且安全的數(shù)據(jù)供給能力。
要實現(xiàn)“存算傳一體化”的深度協(xié)同,存儲底座必須具備足夠的性能支撐。石靜談到,只有在帶寬、吞吐、IOPS以及時延等關鍵指標上全面匹配計算需求,才能真正釋放算力效率。
“超級隧道”技術還構建起專屬數(shù)據(jù)通道,以CPU為核心,將計算、內存、網(wǎng)絡與存儲等關鍵資源劃入獨立的數(shù)據(jù)域,實現(xiàn)資源級隔離與路徑優(yōu)化。每一份數(shù)據(jù)都在專屬的“超級隧道”中傳輸,高效傳輸?shù)接嬎愎?jié)點,實現(xiàn)計算、存儲與網(wǎng)絡的一體化協(xié)同。
為了讓存儲與網(wǎng)絡更深度地融合,首先“超級隧道”技術利用RDMA高速網(wǎng)絡的高性能和低延時的特點,通過獨有的虛擬網(wǎng)卡技術,將高速網(wǎng)卡切分為多個虛擬網(wǎng)卡,并實現(xiàn)數(shù)據(jù)傳輸,從源頭上保障鏈路利用率。其次是存儲和存儲、存儲和計算之間的連接,結合scaleFabric對內存使用機制進行了優(yōu)化,在連接建立初期僅分配最小必要內存保障基礎通信,在實際運行過程中,再根據(jù)鏈路流量動態(tài)分配共享內存資源。
高速網(wǎng)絡正加速向更高帶寬演進。曙光信息產(chǎn)業(yè)(北京)有限公司scaleFabric產(chǎn)品經(jīng)理縱瑞博指出,2023年無損高速網(wǎng)絡還是以100G、200G為主,到近兩年400G逐步成為主流。
在這一趨勢之下,圍繞高性能場景,曙光也逐步形成了清晰的三大優(yōu)勢:
第一大優(yōu)勢在于可以在高性能場景中提供業(yè)界最快的存儲,像單節(jié)點可實現(xiàn)220GB/s帶寬與千萬級IOPS,這意味著一個存儲節(jié)點即可支撐數(shù)十張GPU在高通量場景下穩(wěn)定運行:一方面,高帶寬能力顯著縮短數(shù)據(jù)加載與切換時間,讓GPU將更多資源用于計算本身;另一方面,高IOPS能力則在數(shù)據(jù)預處理及小文件密集讀寫階段提升整體效率,從而優(yōu)化訓練全流程體驗。
第二大優(yōu)勢在于存儲與網(wǎng)絡的一體化國產(chǎn)自研能力。當前主流RDMA網(wǎng)絡仍依賴國外生態(tài),在供應與深度優(yōu)化上存在一定約束,業(yè)內能夠同時實現(xiàn)存儲與高速網(wǎng)絡全棧自研的廠商并不多。
曙光通過將國產(chǎn)存儲與自研高速網(wǎng)絡整合于統(tǒng)一體系內,實現(xiàn)更深層次的協(xié)同優(yōu)化,這也為大規(guī)模AI集群的穩(wěn)定運行與持續(xù)演進提供了關鍵支撐。
萬卡集群背后,一套系統(tǒng)跑通訓練到推理
在當前內外部環(huán)境影響下,國產(chǎn)化已從“可選項”逐步轉變?yōu)椤氨剡x項”,高速網(wǎng)絡是算力基礎設施的核心關鍵技術,其自主可控直接關系到國家算力基礎設施的安全與發(fā)展質量。
曙光實現(xiàn)了全數(shù)據(jù)鏈路的國產(chǎn)化,硬件層面,基于國產(chǎn)全閃介質、自研CPU、IO控制器、infiniband網(wǎng)絡,打造了從機“芯”、到內部IO鏈路、到外部高速互聯(lián)網(wǎng)絡的芯片級和固件級國產(chǎn)化;軟件層面擁有全部源代碼,實現(xiàn)了全面和深度的整系統(tǒng)國產(chǎn)化,全面保障數(shù)據(jù)安全。
過去,部分關鍵環(huán)節(jié)受限于技術成熟度或產(chǎn)業(yè)基礎,用戶即便有國產(chǎn)化訴求,也不得不在一些核心組件上做出妥協(xié)。在自研的環(huán)境中,存儲系統(tǒng)能夠實現(xiàn)更細粒度的資源切分與隔離,在保障穩(wěn)定性的同時,將整體性能發(fā)揮到更高水平。
在網(wǎng)絡側,隨著高速以太網(wǎng)的發(fā)展,行業(yè)通過RoCE方案推進國產(chǎn)化替代,在一定程度上滿足了用戶對自主可控的需求。但從技術特性來看,RoCE在時延等關鍵指標上與InfiniBand仍存在差距。
石靜表示,scaleFabric實質上補齊了國產(chǎn)體系在InfiniBand技術上的空白,隨著這一能力的完善,AI基礎設施在計算、存儲與高速網(wǎng)絡等核心環(huán)節(jié)的國產(chǎn)化版圖已經(jīng)成型,也為后續(xù)大規(guī)模落地提供了更完整的技術基礎。
目前已在國家超算互聯(lián)網(wǎng)核心節(jié)點上線試運行的三套scaleX萬卡,總規(guī)模達3萬卡,全面應用scaleFabric高速網(wǎng)絡,并且已經(jīng)歷超過10個月的穩(wěn)定測試??v瑞博強調,InfiniBand基本屬于零部署、零配置,三套萬卡級集群的網(wǎng)絡部署上線僅用了36小時,目前累計服務1萬個客戶、支撐超10萬項作業(yè)穩(wěn)定運行。
國家超算互聯(lián)網(wǎng)核心節(jié)點驗證了大規(guī)模AI訓練場景對存儲與網(wǎng)絡協(xié)同能力的需求。
石靜介紹,在數(shù)據(jù)準備階段,大量文件的解壓與寫入通常依賴本地存儲,曙光通過BurstBuffer等技術,將計算節(jié)點側存儲納入統(tǒng)一緩存體系,使共享存儲在小文件處理性能上接近本地盤水平,從而避免數(shù)據(jù)分散帶來的管理與調度復雜度。在訓練階段,TB級數(shù)據(jù)可在數(shù)分鐘內完成回寫,顯著提升訓練效率。在推理階段,還結合了曙光超算互聯(lián)網(wǎng)能力。最終做到一套系統(tǒng)即可覆蓋多階段業(yè)務需求,顯著提升了大規(guī)模AI集群的運行效率與資源利用率。
“存算傳一體化”不只是一次架構升級,更是一種面向AI時代的數(shù)據(jù)供給方式重構。這一變革,也將持續(xù)拉高AI基礎設施的能力上限。
本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




