- +1
他們甘當(dāng)“人肉地毯”,只為能讓天河一號“跑”起來

“天河一號”二期系統(tǒng)進(jìn)駐國家超算天津中心首期工程——通信光纖鋪設(shè)甫一開始,就遇到了大麻煩。
鋪設(shè)光纖的溝槽溫度高達(dá)40多度,水泥表層太粗糙,光纖的絕緣膠皮被磨出了道道裂痕,個別地方還露出了線芯。
這個問題不解決,后果不堪設(shè)想。輕者信號中斷、通信短路,重則導(dǎo)致系統(tǒng)紊亂。
怎么辦?工程現(xiàn)場指揮員的舉動出人意料,他把衣褲一脫,跳進(jìn)悶熱的溝槽,俯臥在粗糙的水泥地上。大家紛紛效仿,很快鋪就了一條“人肉地毯”,一根根光纖順著的工程人員的身軀通暢地向前延伸。
光纖鋪設(shè)過程中,幾十人在悶熱的溝槽里赤身裸背爬了數(shù)十天,被堅硬的水泥地和光纖刮擦得遍體鱗傷,15000根光纖卻毫發(fā)無損。
等到“天河一號”二期系統(tǒng)試機那天,開機運行的一瞬間,全部線路暢通無阻。
不久后的11月,我國首臺千萬億次超級計算機“天河一號”以驚人的運算速度在全球超級計算機500強榜單中位居世界第一,這也是五星紅旗第一次插上世界超算之巔。
1983年我國巨型機實現(xiàn)“零”的突破,到“天河一號”大顯王者風(fēng)范,歷經(jīng)數(shù)位科學(xué)家的艱苦探索,中國超算不斷沖擊巔峰,高端應(yīng)用連續(xù)兩次獲得國際高性能計算機的最高獎——戈登貝爾獎。
以“神威?太湖之光”和2017年完成技術(shù)升級和系統(tǒng)優(yōu)化的“天河二號”為標(biāo)志,我國超級計算機具備了從自主微處理器、自主互聯(lián)、自主軟件系統(tǒng)到自主應(yīng)用的全方位自主研制。伴隨著改革開放的時代大潮,我國高性能計算機完成了從“跟跑”到“領(lǐng)跑”的歷史跨越。
再見!屈辱的玻璃房子
“中國要搞四個現(xiàn)代化,不能沒有巨型機!”1978年,在中央召開的一次重要會議上,鄧小平同志的這句話擲地有聲。隨即,他代表黨中央、國務(wù)院將這一任務(wù)交給國防科技大學(xué)。
時任該校計算機研究所所長的慈云桂教授聽到這個消息,當(dāng)即向上級立下軍令狀:每秒一億次一次不少,6年時間一天不拖,預(yù)算經(jīng)費一分不超?!熬退闶腔沓鲞@條老命,也要把中國的巨型機搞出來!”
在中國老一代超算人的心里,藏著一段關(guān)于玻璃房子的心痛往事。
20世紀(jì)80年代,中國氣象部門想從美國克雷公司進(jìn)口一臺計算機,美國人死活不肯賣。后來好不容易松口了,但美國政府要對出口中國的高性能計算機進(jìn)行監(jiān)視,即在計算機機房安裝監(jiān)視儀器,機器也要封在玻璃機房里,由他們自己人使用監(jiān)控,不許中國科技人員進(jìn)去。

面對西方國家如此嚴(yán)密的技術(shù)封鎖,以慈云桂教授為代表的第一代中國計算機科技人員敢為人先,率領(lǐng)國防科大計算機科研隊伍,在1983年12月研發(fā)出中國第一臺億次巨型電子計算機,取名為“銀河”。中國從此成為繼美、日之后能獨立設(shè)計和制造巨型機的國家。
1993年,德國曼海姆大學(xué)漢斯·埃里克教授等開始實施國際TOP500排名。彼時,國防科大銀河系列超級計算機關(guān)鍵技術(shù)攻堅勢如破竹。但每當(dāng)中國躍上一個新臺階,美國或日本不久便會宣布研制出世界上運算速度最快的超級計算機。似乎,中國的超算水平總是比別人差那么一點點。
進(jìn)入21世紀(jì),世界超級計算機發(fā)展遭遇“冰封”時期。科學(xué)家們?yōu)榱颂岣叱阆到y(tǒng)的整體性能,只能依賴于加大系統(tǒng)規(guī)模:比如計算機體積有幾個足球場那么大、需要建一個專用的發(fā)電站才能滿足它的功耗。2004年日本的“地球模擬器”,雖然一度搶占國際TOP500排名第一,但其機房竟需要四層樓,銅質(zhì)電纜有上百公里長。
超算技術(shù)再跨越,需要新的體系結(jié)構(gòu)理論來支撐。這也意味著中國和美、日等發(fā)達(dá)國家處于同一起跑線,中國在超算領(lǐng)域決戰(zhàn)決勝、沖擊巔峰的時機來臨!
死磕到底,科學(xué)家“著了魔”
2006年開始,楊學(xué)軍和他的團(tuán)隊,開始了一場極富創(chuàng)意甚至有點冒險的主動出擊戰(zhàn)。其時,國家制定了“先研制兩臺百萬次超級計算機、再研制一臺千萬億次超級計算機”的“兩步走”戰(zhàn)略。但以楊學(xué)軍為總設(shè)計師的總師組,經(jīng)過深入技術(shù)調(diào)研、反復(fù)權(quán)衡利弊,決定從每秒10萬億次直接沖刺每秒1000萬億次,走別人沒有走過的CPU+GPU技術(shù)路線。這一超常決策引起一片嘩然。

CPU(通用微處理器)+GPU(專用微處理器)異構(gòu)融合體系結(jié)構(gòu),形象地說,就是把眾多CPU、GPU有機地連成一枚“捆綁式火箭”。所謂“一個和尚挑水喝,兩個和尚抬水喝,三個和尚沒水喝。”把數(shù)千個CPU和數(shù)千個GPU組合成一個“大廟”,它們還能賣力“挑水”嗎?
失敗的滋味,不好受。2009年3月,他們把CPU、GPU這兩類“和尚”組合起來,竟發(fā)現(xiàn)總性能還不到600億次,而一顆CPU就有近500億次的性能。也就是說GPU雖然用于圖像處理速度驚人,但讓它與CPU放在一塊用于科學(xué)計算,就變得非常懶惰,計算效能只有20%左右。
難道,這條路真的走錯了嗎?楊學(xué)軍不信邪。他向妻子招招手:“你去把車開來,帶我出去轉(zhuǎn)轉(zhuǎn)?!避囎玉偝龈咚偈召M站時,楊學(xué)軍掏出手機,堅定地說:“別人不敢走的路,并不等于走不通。從技術(shù)原理分析,GPU的計算性能,通過軟件優(yōu)化,是可以大幅提高的……”

在長沙郊區(qū)的一個抗洪指揮部,國防科大超級計算機創(chuàng)新團(tuán)隊來了一次長達(dá)半年的“閉關(guān)”,成員們整天貓在那棟三層小樓里,眼睛只盯著顯示屏,從早上7點盯到午夜。
功夫不負(fù)有心人,突擊隊連續(xù)奮戰(zhàn)四個月,先后改進(jìn)優(yōu)化8萬余次,創(chuàng)造了一個科學(xué)奇跡:GPU計算效能躍升至70%以上,達(dá)到世界最高水平!
奇跡背后的“上甘嶺戰(zhàn)役”
2009年國慶節(jié)來臨前夕,每秒千萬億次超級計算機一期系統(tǒng)安裝完畢。同年10月29日,我國第一臺每秒千萬億次超級計算機橫空出世,中國成為世界上第一個掌握CPU+GPU異構(gòu)融合體系結(jié)構(gòu)技術(shù)、第二個研制出每秒千萬億次超級計算機的國家。時任中共中央總書記、國家主席、中央軍委主席胡錦濤聞訊,親自為她題名“天河”。

奇跡真的發(fā)生了。
2010年11月,在世界超級計算大會上,“天河一號”二期系統(tǒng)以計算峰值高出第二名 “美洲虎”兩倍多的絕對優(yōu)勢,勇奪國際TOP500排名第一,打破了美國在超級計算機領(lǐng)域長期一家獨大的局面,標(biāo)志著我國自主研制的超級計算機綜合技術(shù)水平跨入世界領(lǐng)先行列。
在奮起直追的路上,有多少個不眠之夜,又有多少次激流勇進(jìn),數(shù)不清,道不明。這樣的奇跡,來自超強的膽魄,也來自超出常人的艱辛。參與人員說,真是打了幾場“上甘嶺”。比如,通信光纖的保衛(wèi)戰(zhàn)。

哪知施工第一天剛鋪了幾根,施工指揮員拿起一看,立刻傻眼了。時值盛夏,溝槽溫度高達(dá)40多度,水泥表層太粗糙,光纖的絕緣膠皮被磨出了道道裂痕,個別地方還露出線芯。這個問題不解決,后果不堪設(shè)想。輕者信號中斷、通信短路,重則導(dǎo)致系統(tǒng)紊亂。
指揮員做出了大膽的行為。他把衣褲一脫,跳進(jìn)悶熱的溝槽,俯臥在粗糙的水泥地上。大家紛紛效仿,很快鋪就了一條“人肉地毯”,一根根光纖順著官兵的身軀通暢地向前延伸。
幾十個人在粗糙悶熱的溝槽里赤身裸背爬了數(shù)十天,一個個被堅硬的水泥地和光纖刮擦得遍體鱗傷,15000根光纖卻毫發(fā)無損。
就這樣,等到“天河一號”二期系統(tǒng)試機那天,打開機器的一瞬,全部通信線路暢通無阻。
這樣的中國超算,值得喝彩
喜悅還未退去,質(zhì)疑接踵而至。
在“天河一號”取得世界第一不久后,很多國內(nèi)外的專家和媒體質(zhì)疑其中看不中用,甚至還有專家調(diào)侃 “天河一號”實際上就是一臺大游戲機?!爱?dāng)時,我就怒了!”國家超級計算天津中心應(yīng)用研發(fā)部部長孟祥飛立下了軍令狀,干不好“天河一號”的應(yīng)用就卷鋪蓋走人。
如何讓更多企業(yè)、院校、科研單位成為“天河一號”的用戶?孟祥飛把自己的團(tuán)隊打造成售前、售后、研發(fā)的“三體”。為了讓“天河一號”忙起來,孟祥飛一年常常要跑上四、五十個城市,行程最多時可以繞地球兩圈。經(jīng)過不懈努力,現(xiàn)在每天在“天河一號”平臺上并發(fā)在線的研發(fā)任務(wù)有近1400項,每天要完成近萬項計算任務(wù)?!疤旌右惶枴背蔀榱嗣逼鋵嵉摹皣仄鳌薄?/p>
今年6月25日,新一期全球超級計算機500強榜單發(fā)布,美國超級計算機“頂點”以峰值速度每秒20億億次占據(jù)榜首。在上榜的超算總數(shù)上,中國以206臺位居第一,美國為124臺。

同時,我國超級計算機在應(yīng)用的普及性和廣泛性方面發(fā)展態(tài)勢良好,高端應(yīng)用連續(xù)兩次獲得國際高性能計算機的最高獎——戈登貝爾獎。以“神威?太湖之光”和2017年完成技術(shù)升級和系統(tǒng)優(yōu)化的“天河二號”為標(biāo)志,我國超級計算機具備了從自主微處理器、自主互聯(lián)、自主軟件系統(tǒng)到自主應(yīng)用的全方位自主研制。


(原標(biāo)題:他們甘當(dāng)“人肉地毯”,只為能讓天河一號“跑”起來)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




