岛国无码AV在线,国产精品一二免费视频,我要看日美特级黄色一级片

3月12日，中科曙光在鄭州正式發(fā)布全自研的scaleFabric高速網(wǎng)絡(luò)產(chǎn)品，并宣布其已在位于鄭州的國家超算互聯(lián)網(wǎng)核心節(jié)點成功部署了萬卡級國產(chǎn)智算集群。這一里程碑事件，標(biāo)志著國產(chǎn)算力基礎(chǔ)設(shè)施在突破“卡脖子”關(guān)鍵環(huán)節(jié)上邁出了堅實一步。

然而，當(dāng)國產(chǎn)算力剛剛叩開萬卡時代的大門，海外巨頭英偉達已宣稱構(gòu)建了十萬卡甚至更大規(guī)模的集群。從萬卡到十萬卡，國產(chǎn)算力需要跨越的不僅是數(shù)字的鴻溝，更是技術(shù)、生態(tài)與系統(tǒng)工程的全面挑戰(zhàn)。

萬卡初成與十萬卡之距

“目前，從我知道的信息角度，曙光這個萬卡是唯一一個（全國產(chǎn)化集群）。”中國科學(xué)院計算技術(shù)研究所王展在與筆者的溝通中直言。他的判斷揭示了當(dāng)前國產(chǎn)算力集群的一個現(xiàn)實：實現(xiàn)CPU、GPU、交換機芯片、網(wǎng)卡芯片全棧國產(chǎn)化的萬卡集群，曙光scaleX是已知的孤例。與之形成鮮明對比的是，英偉達憑借其CUDA生態(tài)與InfiniBand（簡稱IB）網(wǎng)絡(luò)，早已將集群規(guī)模推向了十萬卡級別，并持續(xù)探索更大規(guī)模。

在國家超算互聯(lián)網(wǎng)核心節(jié)點國產(chǎn)萬卡集群亮相之前，高速互聯(lián)領(lǐng)域的IB網(wǎng)絡(luò)技術(shù)長期被英偉達形成壟斷格局，其通過收購邁絡(luò)思掌握了IB網(wǎng)絡(luò)的核心技術(shù)，構(gòu)筑起難以突破的技術(shù)壁壘，牢牢把控著全球高端算力集群的網(wǎng)絡(luò)核心環(huán)節(jié)，國內(nèi)算力產(chǎn)業(yè)向超大規(guī)模發(fā)展的步伐，正因這一關(guān)鍵技術(shù)的 “卡脖子” 問題備受制約。

這不僅僅是數(shù)字上的差距，其背后反映的是系統(tǒng)性能力的代際落差。而曙光scaleX萬卡集群的成功落地，依托自研的scaleFabric 高速網(wǎng)絡(luò)實現(xiàn)了IB網(wǎng)絡(luò)技術(shù)的國產(chǎn)化突破，一舉打破了英偉達的技術(shù)壟斷，成功解決了這一領(lǐng)域的“卡脖子”難題。

中科曙光高級副總裁李斌告訴筆者，從萬卡到十萬卡的突破，最核心的技術(shù)挑戰(zhàn)并非來自計算節(jié)點本身，而在于互聯(lián)系統(tǒng)。當(dāng)集群規(guī)模呈數(shù)量級增長時，如何保證計算效率的可擴展性、如何維持超高可靠性，成為壓倒性的難題。

無獨有偶，中國信通院云計算與數(shù)字化研究所的鄭立也曾公開表示，超大規(guī)模集群已成為國內(nèi)外AI競爭的焦點。

據(jù)行業(yè)調(diào)查數(shù)據(jù)顯示，到2025年底，全球智算基礎(chǔ)設(shè)施投資規(guī)模巨大，而支撐下一代萬億乃至十萬億參數(shù)大模型，需要八萬到十萬卡左右的集群規(guī)模。國產(chǎn)算力若想?yún)⑴c這場頂級競賽，就必須攻克超大規(guī)模組網(wǎng)的技術(shù)壁壘。

李斌跟筆者算了一筆簡單的賬：規(guī)模從百卡放大到十萬卡，單點故障率即便極低，在系統(tǒng)層面也會被指數(shù)級放大。確保十萬張加速卡能夠高度協(xié)同、穩(wěn)定持續(xù)運行數(shù)小時乃至數(shù)天完成一次大模型訓(xùn)練，其技術(shù)復(fù)雜度呈幾何級數(shù)上升。

奇異摩爾聯(lián)合創(chuàng)始人、產(chǎn)品及解決方案副總裁?？|從互聯(lián)角度提供了更技術(shù)化的解讀。他將超大規(guī)模集群（Scale Out）的挑戰(zhàn)歸納為幾個核心點：

可靠性、協(xié)同與調(diào)優(yōu)的三重挑戰(zhàn)

實現(xiàn)十萬卡級別的國產(chǎn)算力集群，絕非將現(xiàn)有萬卡方案簡單線性放大。李斌清晰地指出了三個核心挑戰(zhàn)：大規(guī)模可靠性、與應(yīng)用的深度協(xié)同、以及極高的軟件系統(tǒng)調(diào)優(yōu)門檻。這構(gòu)成了國產(chǎn)算力向超大規(guī)模進發(fā)的“三重門”。

挑戰(zhàn)一：超大規(guī)模下的可靠性“魔咒”。 可靠性是十萬卡集群的生命線。曙光信息產(chǎn)業(yè)（北京）有限公司副總裁李柳指出，未來萬卡、十萬卡集群可能是常態(tài)，每一次計算失敗背后都是巨大的成本損耗，“未來每算一次，我們爭取一次性算成功”。他強調(diào)，規(guī)模擴大后，故障率恢復(fù)時間都是指數(shù)級增長，因此高可靠性是比高帶寬、低延遲更重要的指標(biāo)。

scaleFabric的設(shè)計正是圍繞此展開，其采用與InfiniBand（IB）相同的基于信用的流控機制，從理論上保證無損傳輸，避免因少量丟包引發(fā)的性能雪崩。同時，曙光研發(fā)了鏈路故障路由快速恢復(fù)技術(shù)，將故障恢復(fù)時間降至毫秒級且與規(guī)模無關(guān)，并進行了長達10個月、累計超50萬小時的設(shè)備穩(wěn)定性測試。這些舉措旨在對抗規(guī)模效應(yīng)下的可靠性衰減，但真正的考驗仍需在未來的十萬卡真實業(yè)務(wù)環(huán)境中持續(xù)驗證。

挑戰(zhàn)二：與算法流程的深度協(xié)同。 算力集群的高效協(xié)同，不僅取決于硬件，更取決于上層應(yīng)用的算法和分布式訓(xùn)練策略。李斌指出，集群能協(xié)同高效工作，“需要跟應(yīng)用的算法和流程去高度的耦合”。這意味著硬件系統(tǒng)設(shè)計不能背離應(yīng)用需求太遠。

北京科技大學(xué) 計算機與通信工程學(xué)院儲根深以其團隊在工程計算軟件上的優(yōu)化實踐為例，展示了這種協(xié)同的價值。通過利用scaleFabric支持的GPU顯存直接互聯(lián)（GDR）技術(shù)，他們將通信路徑從“GPU->CPU內(nèi)存->網(wǎng)絡(luò)->CPU內(nèi)存->GPU”優(yōu)化為“GPU顯存直通網(wǎng)絡(luò)到GPU顯存”，顯著降低了通信開銷。在其測試中，某些工程計算軟件的通信時間占比從50%降至10%，在萬卡規(guī)模下仍能保持較高的并行效率。這表明，硬件能力必須通過軟件棧的深度適配和優(yōu)化，才能轉(zhuǎn)化為實際應(yīng)用性能。然而，這種深度協(xié)同需要跨領(lǐng)域的專家團隊，既懂芯片與系統(tǒng)架構(gòu)，又懂AI算法與分布式框架，目前國內(nèi)此類復(fù)合型人才團隊仍顯稀缺。

挑戰(zhàn)三：極高的系統(tǒng)級調(diào)優(yōu)門檻。 這是將硬件潛力充分釋放的關(guān)鍵，也是國內(nèi)產(chǎn)業(yè)相對薄弱的環(huán)節(jié)。過去看，國內(nèi)大模型工程化落地能力比較弱，有很強的算法能力，但到大規(guī)模系統(tǒng)上效率往往很低。真正讓萬卡以上集群性能發(fā)揮好，需要一支專業(yè)團隊進行從硬件到軟件的全棧調(diào)優(yōu)。

科大訊飛AI工程院智算基礎(chǔ)設(shè)施架構(gòu)師鮑中帥從用戶角度印證了這一點。他指出，國產(chǎn)單卡性能已對標(biāo)甚至超越英偉達A100，但“從單卡到八卡，在一個機器內(nèi)它的性能度做得還是比較好的，但是如果把它擴散到萬卡，沒有多少廠商有那么高的信心”。其核心瓶頸就在于網(wǎng)絡(luò)以及基于網(wǎng)絡(luò)的系統(tǒng)性調(diào)優(yōu)能力。鮑中帥強調(diào)，實現(xiàn)“1+1=2”的前提是網(wǎng)絡(luò)不成為瓶頸，而國內(nèi)具備強大網(wǎng)絡(luò)能力和集群方案能力的廠商并不多。這不僅是硬件的比拼，更是系統(tǒng)工程能力和軟件棧實力的較量。

突破這三重挑戰(zhàn)需要從芯片、網(wǎng)絡(luò)、存儲、冷卻到系統(tǒng)軟件、應(yīng)用框架的“算存?zhèn)饕惑w化”協(xié)同設(shè)計。

未來高性能計算是一項系統(tǒng)工程，計算、存儲、網(wǎng)絡(luò)任何一環(huán)的短板都會被指數(shù)級放大。而曙光提出的scaleX超集群和算存?zhèn)黢詈霞軜?gòu)，正是試圖通過系統(tǒng)級創(chuàng)新，實現(xiàn)“1+1+1>3”的效果。然而，這條道路漫長且需要全產(chǎn)業(yè)鏈的緊密協(xié)作。

IB還是以太？用戶習(xí)慣與產(chǎn)業(yè)現(xiàn)實的分野

在邁向超大規(guī)模的道路上，除了上述三個挑戰(zhàn)之外，國產(chǎn)算力還面臨著一個基礎(chǔ)性的選擇與挑戰(zhàn)：高速互聯(lián)的技術(shù)路線之爭。當(dāng)前主要存在InfiniBand（IB）和基于以太網(wǎng)的RoCE兩條路徑，它們背后代表著不同的技術(shù)傳承、產(chǎn)業(yè)陣營和用戶習(xí)慣，這一分歧深刻影響著國產(chǎn)生態(tài)的構(gòu)建策略。

中科曙光scaleFabric選擇了兼容IB生態(tài)的路線。其總工程師萬偉解釋，IB是“真正的無損網(wǎng)絡(luò)”，這一特性對RDMA性能至關(guān)重要。然而，另一部分行業(yè)專家觀點則認為：當(dāng)前全球大部分智算中心還是基于以太網(wǎng)的RoCE技術(shù)，而非IB。有行業(yè)專家對筆者表示，IB最初主要服務(wù)于超算領(lǐng)域，被英偉達發(fā)揚光大后應(yīng)用于智算，但由于其協(xié)議存在局限性，且互聯(lián)網(wǎng)大廠已擁有成熟的以太網(wǎng)架構(gòu)體系，若在智算領(lǐng)域單獨部署IB網(wǎng)絡(luò)，會大幅增加網(wǎng)絡(luò)形態(tài)的復(fù)雜性。

這種分歧并非偶然，而是根植于用戶背景。王展精準(zhǔn)概括道：“做超算的行業(yè)從業(yè)者，原來用的是IB體系，所以他們肯定更喜歡用IB。但是現(xiàn)在做智算那幫人還是以互聯(lián)網(wǎng)企業(yè)為主。這些互聯(lián)網(wǎng)企業(yè)，他們原來做云的時候，他們就用的是以太網(wǎng)，所以他們覺得以太用得更順手。”

IB網(wǎng)絡(luò)，尤其是純國產(chǎn)的IB網(wǎng)絡(luò)實現(xiàn)萬卡對于國產(chǎn)算力的“進化”意味著什么？首先，它意味著市場將是雙軌并存的格局。李斌闡述了其開放生態(tài)的理念，希望支持國內(nèi)不同算力芯片的適配。奇異摩爾則直接投身于RoCE路線的演進與優(yōu)化，并針對其在大規(guī)模有損網(wǎng)絡(luò)下的缺陷提出了自己的協(xié)議解決方案。

其次，這帶來了增量部署的兼容性挑戰(zhàn)。王展指出，在全新部署的國產(chǎn)集群上，應(yīng)用可以無縫遷移。但如果用戶想保留原有英偉達IB交換機，只替換國產(chǎn)網(wǎng)卡，可能會因英偉達的私有協(xié)議限制而無法通信。這體現(xiàn)了生態(tài)替代過程中的現(xiàn)實摩擦，也凸顯了掌握自主核心技術(shù)的必要性。

因此，國產(chǎn)解決方案能否成功，不僅取決于單一技術(shù)路線的性能優(yōu)劣，更取決于堅定并做強自主可控的 IB 技術(shù)路線，同時以開放的姿態(tài)，靈活適配IB與RoCE雙軌生態(tài)，降低不同背景用戶的遷移和運維成本。

樂觀的一面是，國產(chǎn)算力正走出一條更具優(yōu)勢、更符合未來趨勢的發(fā)展路徑。?？|告訴筆者，美國走的是“暴力堆算力”的路線，追求單卡算力和規(guī)模的快速迭代；而中國則走高效集約、自主可控、開放共享的精細化發(fā)展路線，通過提升算力效率、降低成本，推動AI普惠，同時依托電力優(yōu)勢和互聯(lián)技術(shù)的快速追趕，實現(xiàn)“以系統(tǒng)優(yōu)勢彌補單點差異“的高質(zhì)量發(fā)展。在軟件層面，國產(chǎn)廠商通過精細化優(yōu)化，充分挖掘現(xiàn)有硬件的算力潛力；在架構(gòu)層面，DSA路線、存算一體、重構(gòu)計算等新型架構(gòu)的探索，也為國產(chǎn)算力突破海外限制提供了新路徑。（文｜Leo張ToB雜談，作者｜張申宇，編輯丨蓋虹達）

快報