中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

美國能源部百億億次超級計算機初探

2023-10-04 16:36
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

除了HPE之外,還有誰愿意幫勞倫斯伯克利國家實驗室打造下一代NERSC-10超級計算機,還有橡樹嶺國家實驗室的未來OLCF-6超算系統(tǒng)?好的,微軟舉手了,還有亞馬遜云科技。收到,還有沒有其他感興趣的?

沒錯,現(xiàn)在情況大概就是這樣。

勞倫斯伯克利國家實驗室已經(jīng)于9月15日就當(dāng)前Perlmutter系統(tǒng)提出了技術(shù)升級邀約,橡樹嶺國家實驗室也緊隨其后,于9月27日就Frontier系統(tǒng)開放了技術(shù)升級招標(biāo)。面對兩項需求,我們不禁好奇,美國能源部下屬的這些國家實驗室在采購下一代超級計算機時,具體有哪些選項可以考量?

英特爾已經(jīng)不愿承包超級計算機業(yè)務(wù),公司CEO Pat Gelsinger也清醒過來,不再討論在2027年之前實現(xiàn)Zettascale(即1000百億億次)算力的計劃。兩年之前,Gelsinger曾經(jīng)對此信誓旦旦,但我們在計算之后發(fā)現(xiàn),哪怕英特爾在2021年至2027年間每年都能把CPU和GPU性能提高一倍,也仍然需要11.6萬個節(jié)點加772兆瓦的能耗才能實現(xiàn)Zettascale。問題是這可能嗎?明顯不可能。

在經(jīng)歷之前大型計算系統(tǒng)項目虧損之后,IBM也退出了這部分承包市場,開始專注沖擊以AI推理為核心的HPC工作負(fù)載。幾年之前,英偉達(dá)和Mellanox曾與IBM合作開發(fā)過百億億次系統(tǒng),成果如今就坐落在勞倫斯利弗莫爾和橡樹嶺國家實驗室當(dāng)中。但在此之后,英偉達(dá)發(fā)現(xiàn)AI訓(xùn)練才是最來錢的道兒,所以不再像2008年到2012年那樣關(guān)注HPC模擬和建模。時至今日,哪怕英偉達(dá)的HPC業(yè)務(wù)規(guī)模再翻一番,小小的數(shù)字在如今生成式AI業(yè)務(wù)的爆發(fā)式增長當(dāng)中,也只能作為可被舍去的小數(shù)點后部分。

Atos或者富士通也不可能向美國政府實驗室出售產(chǎn)品。戴爾倒是可以,但Michael Dell本人并不喜歡賠錢賺吆喝,所以幫得克薩斯大學(xué)搞的高性能計算項目已經(jīng)足夠彰顯其愛國情懷,再多投入實無必要。

那市場上還有誰?沒錯,基本就是三大云巨頭——微軟、AWS和谷歌了。而根據(jù)最近的相關(guān)報道,他們也分別有著自己的問題。最大的問題就是這幫云服務(wù)商必須拿恐怖的設(shè)施規(guī)模吸引受眾,但客戶實際用得上的資源卻非常有限。無限容量、易于切換這些東西看似簡單,可在公有云端跟在國家級超級計算中心內(nèi)的實現(xiàn)根本就不是一回事。后者需要把數(shù)千萬個并發(fā)核心連接起來以完成工作,同時輔以高帶寬、低延遲的網(wǎng)絡(luò)互連。與之相比,眾多小體量租戶各自使用有限資源的公有云業(yè)務(wù)簡直就像過家家。

勞倫斯伯克利國家實驗室、特別是旗下的國家能源研究科學(xué)計算中心,早在今年4月就要求各供應(yīng)商提供NERSC-10超算的設(shè)計方案。下面來看技術(shù)文件中提出的開發(fā)路線圖:

請注意,技術(shù)征求意見書跟真正的征求意見書不太一樣,前者更多是種預(yù)覽草案,希望初步定下盈虧基調(diào)來吸引更多廠商的參與。NERSC-10的正式征求意見書將于2024年2月5日發(fā)布,經(jīng)過一段時間的質(zhì)詢后最終在3月8日截止。早期訪問機器必須在2025年內(nèi)交付,NERSC-10系統(tǒng)本體則須在2026年下半年交付,系統(tǒng)驗收(暨主承包商收款時間)預(yù)定在2027年之內(nèi)。

與之對應(yīng),技術(shù)征求意見書則像是份長長的特性加功能清單,具體內(nèi)容并不要求太過精確,因為勞倫斯伯克利實驗室也希望能對開放架構(gòu)、復(fù)雜HPC和AI工作流程,以及各因素之間的相互匹配持開放態(tài)度。該實驗室先進技術(shù)小組負(fù)責(zé)人兼NERSC機器架構(gòu)師Nick Wright在最近的HPC用戶論壇會議上發(fā)表演講,表示HPC技術(shù)、行業(yè)乃至整個社區(qū)都處于發(fā)展拐點,而核心影響因素一是摩爾定律的終結(jié)、二是AI技術(shù)的崛起。

NERSC-10的目標(biāo)就是在HPC工作負(fù)載之上提供至少10倍于當(dāng)前Perlmutter的性能。勞倫斯伯克利實驗室擁有一整套量子色動力學(xué)、材料、分子動力學(xué)、深度學(xué)習(xí)、基因組學(xué)和宇宙學(xué)應(yīng)用程序,能夠準(zhǔn)確衡量性能提升是否達(dá)到10倍。從其中的表述來看,只要最終大規(guī)模并行計算陣列能夠提供比CPU-GPU混合架構(gòu)更好的算力和每瓦性能,那么所有國家實驗室都會快速跟進、采購相關(guān)設(shè)備來構(gòu)建自己的數(shù)據(jù)中心。這樣的潛在收益,當(dāng)然會令更多技術(shù)大廠為之心動。

四年之前,Hyperion曾表示NERSC-10的峰值性能將在8到12百億億次之間,而Frontier的峰值性能預(yù)計將在1.5到3百億億次之間。至于勞倫斯利弗莫爾的El Capitan,最終成績約在4到5百億億次左右。但NERSC-10的征求意見書不會公布峰值失敗率,所以我們無法判斷以上預(yù)測跟現(xiàn)實有多大出入。Wright還補充稱,勞倫斯伯克利實驗室也在努力擴大供應(yīng)商群體,包括那些之前沒有就能源部征求意見書做出響應(yīng)的供應(yīng)商。

遺憾的是,NERSC-10目前的技術(shù)征求意見文件缺乏細(xì)節(jié),唯一確定的就是擬議系統(tǒng)最大功耗不可超過20兆瓦,且最大占地面積不可超過4784平方英尺。此外,NERSC也對能源效率非常重視,考慮到狹小空間內(nèi)極高的發(fā)熱密度,相關(guān)設(shè)備必然需要采用水冷(與Perlmutter一樣)。

橡樹嶺國家實驗室坐落于伯克利大學(xué)正東偏南約2466英里外的田納西州荒山當(dāng)中。在這里,OLCF-6系統(tǒng)的技術(shù)征求意見書也已出爐,向HPE及其他有意參與的競爭對手提出了挑戰(zhàn)。

下圖所示為2019年時公布的舊路線圖,點明了Frontier及其后續(xù)系統(tǒng)的發(fā)展方向:

 “Summit”O(jiān)LCF-4機器已經(jīng)成功達(dá)成了性能目標(biāo)上限,而Frontier OLCF-5機器只能說是幾乎接近上限。如果把系統(tǒng)的實際發(fā)布時間均取中間值,則OLCF-4和OLCF-5相當(dāng)于分別在2018年和2022年交付,OLCF-6則預(yù)計在2027年。但實際上“Jaguar”系統(tǒng)是在2009年交付的,“Titan”系統(tǒng)則是2012年,所以猜測這里標(biāo)出的時間其實就是相應(yīng)超算系統(tǒng)的實際發(fā)布時間。

這也不要緊,畢竟每家廠商的HPC路線圖都有延后。預(yù)計未來十年在摩爾定律走入困境的大背景之下,技術(shù)承諾無法實現(xiàn)將成為一種常態(tài)。

無論如何,當(dāng)時的路線圖預(yù)計OLCF-6的峰值性能應(yīng)該是在2到4百億億次,最樂觀的估計就是在4百億億次。而根據(jù)目前的技術(shù)征求意見文件來看,F(xiàn)rontier將于2028年迎來其生命周期終點,就是說在此之前(也就是2027年),OLCF-6必須準(zhǔn)備就位。橡樹嶺實驗室愿意接受Frontier升級、全新系統(tǒng)設(shè)計以及其他場外系統(tǒng)投標(biāo)——我們認(rèn)為,最后一點就是在向超大規(guī)模基礎(chǔ)設(shè)施運營商和云服務(wù)商伸出橄欖枝。橡樹嶺還對并行文件系統(tǒng)和AI優(yōu)化型存儲系統(tǒng)敞開了懷抱(指向的應(yīng)該是DataDirect Networks和Vast Data)。

對了,順帶一提,如果Frontier的繼任者沒有部署在田納西州,則中標(biāo)方還須繳納9.75%的銷售稅。這就是美國東部諾克斯維爾數(shù)據(jù)中心專區(qū)的規(guī)矩……

無論后續(xù)機型是什么,它都必須匹配橡樹嶺數(shù)據(jù)中心4300平方英尺的物理面積,且不可超過30兆瓦的功耗上限。目前還未公布應(yīng)用性能目標(biāo),但OLCF-6基準(zhǔn)測試套件中的應(yīng)用程序列表(包括LAMMPS、M-PSNDS、MILC、QMCPACK、SPATTER、FORGE 和 Workflow)已經(jīng)涵蓋各類HPC模擬和AI訓(xùn)練方面的NERSC-10基準(zhǔn)套件。

很難想象,除了HPE之外還有誰會愿意參與這場競標(biāo),但政府項目要求至少要有兩家參與競標(biāo)的廠商。如果實在沒有,可能就得生生“創(chuàng)造”一個。

真正的拐點和由此引發(fā)的問題在于,專門設(shè)計本地系統(tǒng)的HPE到底能不能在這兩筆交易中擊敗微軟或AWS。云服務(wù)商必然采用跟傳統(tǒng)云業(yè)務(wù)截然不同的方法——更多類似于托管業(yè)務(wù),借此在HPC和AI工作負(fù)載上提供更好的性能。而即便如此,恐怕也只有他們才參與競標(biāo)的能力、完成工作的資金儲備、以及沖擊百億億次的實力。

唯一的問題就是,他們肯定不會像之前的SGI、IBM、英特爾和HPE那樣接受更低的構(gòu)建成本。這才是真正的難題所在,畢竟如今的AMD已經(jīng)不會再像Frontier和El Capitan項目那樣用CPU和GPU項目從美國政府手中換取特殊利益。美國政府當(dāng)然可以用免于起訴和允許壟斷等特權(quán)換取廉價的HPC/AI超級計算機,但至少我們還沒聽說過如此大膽的交換條件,所以新一代超算的命運仍是個未定之?dāng)?shù)。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司