3月12日,中科曙光在鄭州正式發(fā)布全自研的scaleFabric高速網(wǎng)絡(luò)產(chǎn)品,并宣布其已在位于鄭州的國家超算互聯(lián)網(wǎng)核心節(jié)點成功部署了萬卡級國產(chǎn)智算集群。這一里程碑事件,標(biāo)志著國產(chǎn)算力基礎(chǔ)設(shè)施在突破“卡脖子”關(guān)鍵環(huán)節(jié)上邁出了堅實一步。
然而,當(dāng)國產(chǎn)算力剛剛叩開萬卡時代的大門,海外巨頭英偉達已宣稱構(gòu)建了十萬卡甚至更大規(guī)模的集群。從萬卡到十萬卡,國產(chǎn)算力需要跨越的不僅是數(shù)字的鴻溝,更是技術(shù)、生態(tài)與系統(tǒng)工程的全面挑戰(zhàn)。
“目前,從我知道的信息角度,曙光這個萬卡是唯一一個(全國產(chǎn)化集群)。”中國科學(xué)院計算技術(shù)研究所王展在與筆者的溝通中直言。他的判斷揭示了當(dāng)前國產(chǎn)算力集群的一個現(xiàn)實:實現(xiàn)CPU、GPU、交換機芯片、網(wǎng)卡芯片全棧國產(chǎn)化的萬卡集群,曙光scaleX是已知的孤例。與之形成鮮明對比的是,英偉達憑借其CUDA生態(tài)與InfiniBand(簡稱IB)網(wǎng)絡(luò),早已將集群規(guī)模推向了十萬卡級別,并持續(xù)探索更大規(guī)模。
在國家超算互聯(lián)網(wǎng)核心節(jié)點國產(chǎn)萬卡集群亮相之前,高速互聯(lián)領(lǐng)域的IB網(wǎng)絡(luò)技術(shù)長期被英偉達形成壟斷格局,其通過收購邁絡(luò)思掌握了IB網(wǎng)絡(luò)的核心技術(shù),構(gòu)筑起難以突破的技術(shù)壁壘,牢牢把控著全球高端算力集群的網(wǎng)絡(luò)核心環(huán)節(jié),國內(nèi)算力產(chǎn)業(yè)向超大規(guī)模發(fā)展的步伐,正因這一關(guān)鍵技術(shù)的 “卡脖子” 問題備受制約。
這不僅僅是數(shù)字上的差距,其背后反映的是系統(tǒng)性能力的代際落差。而曙光scaleX萬卡集群的成功落地,依托自研的scaleFabric 高速網(wǎng)絡(luò)實現(xiàn)了IB網(wǎng)絡(luò)技術(shù)的國產(chǎn)化突破,一舉打破了英偉達的技術(shù)壟斷,成功解決了這一領(lǐng)域的“卡脖子”難題。
中科曙光高級副總裁李斌告訴筆者,從萬卡到十萬卡的突破,最核心的技術(shù)挑戰(zhàn)并非來自計算節(jié)點本身,而在于互聯(lián)系統(tǒng)。當(dāng)集群規(guī)模呈數(shù)量級增長時,如何保證計算效率的可擴展性、如何維持超高可靠性,成為壓倒性的難題。
無獨有偶,中國信通院云計算與數(shù)字化研究所的鄭立也曾公開表示,超大規(guī)模集群已成為國內(nèi)外AI競爭的焦點。
據(jù)行業(yè)調(diào)查數(shù)據(jù)顯示,到2025年底,全球智算基礎(chǔ)設(shè)施投資規(guī)模巨大,而支撐下一代萬億乃至十萬億參數(shù)大模型,需要八萬到十萬卡左右的集群規(guī)模。國產(chǎn)算力若想?yún)⑴c這場頂級競賽,就必須攻克超大規(guī)模組網(wǎng)的技術(shù)壁壘。
李斌跟筆者算了一筆簡單的賬:規(guī)模從百卡放大到十萬卡,單點故障率即便極低,在系統(tǒng)層面也會被指數(shù)級放大。確保十萬張加速卡能夠高度協(xié)同、穩(wěn)定持續(xù)運行數(shù)小時乃至數(shù)天完成一次大模型訓(xùn)練,其技術(shù)復(fù)雜度呈幾何級數(shù)上升。
奇異摩爾聯(lián)合創(chuàng)始人、產(chǎn)品及解決方案副總裁??|從互聯(lián)角度提供了更技術(shù)化的解讀。他將超大規(guī)模集群(Scale Out)的挑戰(zhàn)歸納為幾個核心點:
實現(xiàn)十萬卡級別的國產(chǎn)算力集群,絕非將現(xiàn)有萬卡方案簡單線性放大。李斌清晰地指出了三個核心挑戰(zhàn):大規(guī)模可靠性、與應(yīng)用的深度協(xié)同、以及極高的軟件系統(tǒng)調(diào)優(yōu)門檻。這構(gòu)成了國產(chǎn)算力向超大規(guī)模進發(fā)的“三重門”。
挑戰(zhàn)一:超大規(guī)模下的可靠性“魔咒”。 可靠性是十萬卡集群的生命線。曙光信息產(chǎn)業(yè)(北京)有限公司副總裁李柳指出,未來萬卡、十萬卡集群可能是常態(tài),每一次計算失敗背后都是巨大的成本損耗,“未來每算一次,我們爭取一次性算成功”。他強調(diào),規(guī)模擴大后,故障率恢復(fù)時間都是指數(shù)級增長,因此高可靠性是比高帶寬、低延遲更重要的指標(biāo)。
scaleFabric的設(shè)計正是圍繞此展開,其采用與InfiniBand(IB)相同的基于信用的流控機制,從理論上保證無損傳輸,避免因少量丟包引發(fā)的性能雪崩。同時,曙光研發(fā)了鏈路故障路由快速恢復(fù)技術(shù),將故障恢復(fù)時間降至毫秒級且與規(guī)模無關(guān),并進行了長達10個月、累計超50萬小時的設(shè)備穩(wěn)定性測試。這些舉措旨在對抗規(guī)模效應(yīng)下的可靠性衰減,但真正的考驗仍需在未來的十萬卡真實業(yè)務(wù)環(huán)境中持續(xù)驗證。
挑戰(zhàn)二:與算法流程的深度協(xié)同。 算力集群的高效協(xié)同,不僅取決于硬件,更取決于上層應(yīng)用的算法和分布式訓(xùn)練策略。李斌指出,集群能協(xié)同高效工作,“需要跟應(yīng)用的算法和流程去高度的耦合”。這意味著硬件系統(tǒng)設(shè)計不能背離應(yīng)用需求太遠。
北京科技大學(xué) 計算機與通信工程學(xué)院儲根深以其團隊在工程計算軟件上的優(yōu)化實踐為例,展示了這種協(xié)同的價值。通過利用scaleFabric支持的GPU顯存直接互聯(lián)(GDR)技術(shù),他們將通信路徑從“GPU->CPU內(nèi)存->網(wǎng)絡(luò)->CPU內(nèi)存->GPU”優(yōu)化為“GPU顯存直通網(wǎng)絡(luò)到GPU顯存”,顯著降低了通信開銷。在其測試中,某些工程計算軟件的通信時間占比從50%降至10%,在萬卡規(guī)模下仍能保持較高的并行效率。這表明,硬件能力必須通過軟件棧的深度適配和優(yōu)化,才能轉(zhuǎn)化為實際應(yīng)用性能。然而,這種深度協(xié)同需要跨領(lǐng)域的專家團隊,既懂芯片與系統(tǒng)架構(gòu),又懂AI算法與分布式框架,目前國內(nèi)此類復(fù)合型人才團隊仍顯稀缺。
挑戰(zhàn)三:極高的系統(tǒng)級調(diào)優(yōu)門檻。 這是將硬件潛力充分釋放的關(guān)鍵,也是國內(nèi)產(chǎn)業(yè)相對薄弱的環(huán)節(jié)。過去看,國內(nèi)大模型工程化落地能力比較弱,有很強的算法能力,但到大規(guī)模系統(tǒng)上效率往往很低。真正讓萬卡以上集群性能發(fā)揮好,需要一支專業(yè)團隊進行從硬件到軟件的全棧調(diào)優(yōu)。
科大訊飛AI工程院智算基礎(chǔ)設(shè)施架構(gòu)師鮑中帥從用戶角度印證了這一點。他指出,國產(chǎn)單卡性能已對標(biāo)甚至超越英偉達A100,但“從單卡到八卡,在一個機器內(nèi)它的性能度做得還是比較好的,但是如果把它擴散到萬卡,沒有多少廠商有那么高的信心”。其核心瓶頸就在于網(wǎng)絡(luò)以及基于網(wǎng)絡(luò)的系統(tǒng)性調(diào)優(yōu)能力。鮑中帥強調(diào),實現(xiàn)“1+1=2”的前提是網(wǎng)絡(luò)不成為瓶頸,而國內(nèi)具備強大網(wǎng)絡(luò)能力和集群方案能力的廠商并不多。這不僅是硬件的比拼,更是系統(tǒng)工程能力和軟件棧實力的較量。
突破這三重挑戰(zhàn)需要從芯片、網(wǎng)絡(luò)、存儲、冷卻到系統(tǒng)軟件、應(yīng)用框架的“算存?zhèn)饕惑w化”協(xié)同設(shè)計。
未來高性能計算是一項系統(tǒng)工程,計算、存儲、網(wǎng)絡(luò)任何一環(huán)的短板都會被指數(shù)級放大。而曙光提出的scaleX超集群和算存?zhèn)黢詈霞軜?gòu),正是試圖通過系統(tǒng)級創(chuàng)新,實現(xiàn)“1+1+1>3”的效果。然而,這條道路漫長且需要全產(chǎn)業(yè)鏈的緊密協(xié)作。
在邁向超大規(guī)模的道路上,除了上述三個挑戰(zhàn)之外,國產(chǎn)算力還面臨著一個基礎(chǔ)性的選擇與挑戰(zhàn):高速互聯(lián)的技術(shù)路線之爭。當(dāng)前主要存在InfiniBand(IB)和基于以太網(wǎng)的RoCE兩條路徑,它們背后代表著不同的技術(shù)傳承、產(chǎn)業(yè)陣營和用戶習(xí)慣,這一分歧深刻影響著國產(chǎn)生態(tài)的構(gòu)建策略。
中科曙光scaleFabric選擇了兼容IB生態(tài)的路線。其總工程師萬偉解釋,IB是“真正的無損網(wǎng)絡(luò)”,這一特性對RDMA性能至關(guān)重要。然而,另一部分行業(yè)專家觀點則認為:當(dāng)前全球大部分智算中心還是基于以太網(wǎng)的RoCE技術(shù),而非IB。有行業(yè)專家對筆者表示,IB最初主要服務(wù)于超算領(lǐng)域,被英偉達發(fā)揚光大后應(yīng)用于智算,但由于其協(xié)議存在局限性,且互聯(lián)網(wǎng)大廠已擁有成熟的以太網(wǎng)架構(gòu)體系,若在智算領(lǐng)域單獨部署IB網(wǎng)絡(luò),會大幅增加網(wǎng)絡(luò)形態(tài)的復(fù)雜性。
這種分歧并非偶然,而是根植于用戶背景。王展精準(zhǔn)概括道:“做超算的行業(yè)從業(yè)者,原來用的是IB體系,所以他們肯定更喜歡用IB。但是現(xiàn)在做智算那幫人還是以互聯(lián)網(wǎng)企業(yè)為主。這些互聯(lián)網(wǎng)企業(yè),他們原來做云的時候,他們就用的是以太網(wǎng),所以他們覺得以太用得更順手。”
IB網(wǎng)絡(luò),尤其是純國產(chǎn)的IB網(wǎng)絡(luò)實現(xiàn)萬卡對于國產(chǎn)算力的“進化”意味著什么?首先,它意味著市場將是雙軌并存的格局。李斌闡述了其開放生態(tài)的理念,希望支持國內(nèi)不同算力芯片的適配。奇異摩爾則直接投身于RoCE路線的演進與優(yōu)化,并針對其在大規(guī)模有損網(wǎng)絡(luò)下的缺陷提出了自己的協(xié)議解決方案。
其次,這帶來了增量部署的兼容性挑戰(zhàn)。王展指出,在全新部署的國產(chǎn)集群上,應(yīng)用可以無縫遷移。但如果用戶想保留原有英偉達IB交換機,只替換國產(chǎn)網(wǎng)卡,可能會因英偉達的私有協(xié)議限制而無法通信。這體現(xiàn)了生態(tài)替代過程中的現(xiàn)實摩擦,也凸顯了掌握自主核心技術(shù)的必要性。
因此,國產(chǎn)解決方案能否成功,不僅取決于單一技術(shù)路線的性能優(yōu)劣,更取決于堅定并做強自主可控的 IB 技術(shù)路線,同時以開放的姿態(tài),靈活適配IB與RoCE雙軌生態(tài),降低不同背景用戶的遷移和運維成本。
樂觀的一面是,國產(chǎn)算力正走出一條更具優(yōu)勢、更符合未來趨勢的發(fā)展路徑。??|告訴筆者,美國走的是“暴力堆算力”的路線,追求單卡算力和規(guī)模的快速迭代;而中國則走高效集約、自主可控、開放共享的精細化發(fā)展路線,通過提升算力效率、降低成本,推動AI普惠,同時依托電力優(yōu)勢和互聯(lián)技術(shù)的快速追趕,實現(xiàn)“以系統(tǒng)優(yōu)勢彌補單點差異“的高質(zhì)量發(fā)展。在軟件層面,國產(chǎn)廠商通過精細化優(yōu)化,充分挖掘現(xiàn)有硬件的算力潛力;在架構(gòu)層面,DSA路線、存算一體、重構(gòu)計算等新型架構(gòu)的探索,也為國產(chǎn)算力突破海外限制提供了新路徑。(文|Leo張ToB雜談,作者|張申宇,編輯丨蓋虹達)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論
第一個全國產(chǎn)萬卡集群不是合肥的飛星一號嗎