圖片來自AI生成
在完成資本市場的關鍵一躍之后,摩爾線程要回答更大的問題。
在摩爾線程首屆MUSA開發(fā)者大會(簡稱:MDC 2025)上,摩爾線程創(chuàng)始人、董事長兼首席執(zhí)行官張建中拿出了一連串的“硬貨”,全功能GPU架構“花港”,夸娥萬卡智算集群,下一代超節(jié)點架構,搭載智能SoC芯片“長江”的AI算力本MTT AIBOOK等。
如果只看產(chǎn)品名、參數(shù)和發(fā)布節(jié)奏,這場MDC 2025很容易被誤解成一次例行升級。但把張建中兩個多小時的演講完整聽下來,會發(fā)現(xiàn)摩爾線程想傳遞的并不只是國產(chǎn)GPU又快了多少,而是一個核心趨勢:國產(chǎn)GPU,終于像一家真正的基礎設施公司那樣思考問題了。
摩爾線程素來被視為“中國版英偉達”,這體現(xiàn)在它的方方面面,張建中曾任英偉達全球副總裁、中國區(qū)總經(jīng)理,在GPU行業(yè)深耕近二十年,團隊并不缺少英偉達履歷的人,公司行事風格和英偉達很像,譬如MDC就對標英偉達的GTC。
之所以摩爾線程選擇全功能GPU,也和英偉達“通用并行計算”的思路一致,不做AI-only 加速器,圖形、AI、HPC、視頻共存,他們認為,下一代應用一定是混合計算,而不是單一模型推理。
英偉達最被低估的,不是芯片,而是 CUDA 生態(tài),摩爾線程最容易被忽略的也是 MUSA。英偉達真正完成質變,是從 GPU 公司變成算力基礎設施公司,摩爾線程這兩年的變化也非常明顯,從單卡到萬卡集群,從追求性能到追求穩(wěn)定性、線性度、MFU等系統(tǒng)級指標。
但,若只看到“像英偉達”,就會得出一個錯誤結論,摩爾線程是在“復刻英偉達”,其實不然,英偉達成長在一個高度全球化、低摩擦的產(chǎn)業(yè)環(huán)境里,摩爾線程則要面對供應鏈不確定性、技術封鎖、國產(chǎn)生態(tài)薄弱等難題,這是英偉達當年不需要做的題目。
更確切的說法是,摩爾線程在用英偉達的方法論,解決中國自己的算力問題,在中國現(xiàn)有產(chǎn)業(yè)條件下,重走一遍GPU的必經(jīng)之路。
![]()
在張建中演講的開始,首先闡釋了摩爾線程為何要做全功能GPU。“全功能GPU的創(chuàng)新,就是一部算力進化史。”他說。
如果回顧 GPU 的發(fā)展史,會發(fā)現(xiàn)它并不是為某一類應用而生,而是在持續(xù)拓展自身的計算邊界。早期 GPU 主要承擔圖形與 3D 渲染任務;進入本世紀后,隨著可編程能力的引入,GPU 開始向通用并行計算平臺演進。其后,GPU 在科學計算和深度學習中的廣泛應用,使其逐步成為人工智能時代的核心算力載體。
隨著 Transformer 架構推動生成式 AI 爆發(fā),人工智能正從感知 AI、生成式 AI 邁向 Agentic AI,并進一步走向與現(xiàn)實世界深度融合的物理 AI 階段。未來五到十年,具身智能等新形態(tài)應用,要求算力平臺同時具備計算、仿真、圖形與感知能力,這并非單一功能加速器可以勝任。
張建中表示,從更長周期來看,未來五到十年的關鍵應用形態(tài),很可能集中體現(xiàn)在具身智能領域。具身智能通過將人工智能能力嵌入真實世界的物理實體之中,推動虛擬世界、數(shù)字世界與物理世界的深度融合,而這背后所依賴的,正是能夠支撐復雜計算形態(tài)的物理 AI 基礎設施。
在這一演進過程中,“3D + AI + HPC” 并非偶然組合,而是全功能 GPU 自然演進的結果。隨著 GPU 在圖形、計算與仿真等多個維度能力的不斷融合,其逐步演化為支撐新一代科技發(fā)展的核心基礎設施。實踐已經(jīng)反復證明,
在張建中看來,基于全功能 GPU 構建的算力基礎設施,更有能力支撐技術體系的持續(xù)演進與長期領先。
從技術架構角度看,全功能 GPU 的核心在于其內部集成的多類計算引擎,實現(xiàn)對多樣化計算需求的統(tǒng)一支撐。當前,全功能 GPU 主要包含四類核心計算引擎:
首先是 AI 計算引擎,覆蓋模型訓練、推理以及訓推一體等典型場景,是支撐大模型與各類 AI 應用的基礎能力。
其次是 3D 圖形渲染引擎,為數(shù)字內容生產(chǎn)、數(shù)字孿生、仿真可視化等場景提供高性能圖形處理能力。
第三是 高性能計算與物理仿真引擎。這一能力在科學計算和 AI for Science 場景中具有重要價值,能夠支撐復雜物理過程模擬與大規(guī)??茖W計算任務。
第四是 智能視頻編解碼引擎。盡管這一能力往往容易被低估,但在云端計算成為主流的背景下,視覺仍是人類感知計算結果的主要方式。高效的視頻編解碼能力,決定了云端算力成果能否被穩(wěn)定、低成本地傳遞至終端用戶。
MUSA(Meta-computing Unified System Architecture)是摩爾線程自主研發(fā)的元計算統(tǒng)一計算架構,覆蓋從芯片架構、指令集、編程模型到軟件運行庫及驅動程序框架等的全棧技術體系。
一個完整MUSA的統(tǒng)一系統(tǒng)架構,最底層是摩爾線程全功能GPU,可以去處理各種行業(yè)、不同精度、不同類型和不同格式的數(shù)據(jù)。
在全功能GPU之上,是硬件系統(tǒng),摩爾線程的智算集群叫作夸娥??涠鹬撬慵嚎纱罂尚?,小到一個小的系統(tǒng),大到一個萬卡集群,十萬卡集群,甚至更大的超大規(guī)模。
在硬件基礎之上,摩爾線程搭建所有的軟件棧。首先是MUSA全套軟件棧,包括所有的加速庫,所有的開發(fā)者調試工具和開發(fā)者的應用案例和實例,利用全套MUSA體系結構能夠在基礎之上去搭建夸娥的基礎軟件。
在這一基礎上,摩爾線程繼續(xù)建設MUSA生態(tài),可以看出,MUSA是一個從芯片到生態(tài)的完整系統(tǒng)。
![]()
本次MUSA 升級至5.0,標志著架構步入成熟。原生MUSA C,深度兼容 TileLang、Triton 等編程語言,核心計算庫muDNN實現(xiàn)GEMM/FlashAttention效率超98%,通信效率達97%,編譯器性能提升3倍,并集成高性能算子庫,顯著加速訓練與推理全流程。
摩爾線程計劃逐步開源計算加速庫、通信庫及系統(tǒng)管理框架在內的核心組件,向開發(fā)者社區(qū)開放深度優(yōu)化的底層能力。據(jù)悉,摩爾線程即將推出兼容跨代GPU指令架構的中間語言MTX、面向渲染+AI融合計算的編程語言muLang、量子計算融合框架MUSA-Q,以及計算光刻庫muLitho,持續(xù)拓展全功能GPU的算力邊界。
“MUSA不光是支持國際上通用的CPU系統(tǒng),同時也支持國產(chǎn)的CPU操作系統(tǒng)和國內的開發(fā)環(huán)境。利用我們國產(chǎn)的生態(tài),結合國際的生態(tài),能夠完美支撐AI、3D圖形和科學計算應用當中的方方面面。“張建中表示,摩爾線程統(tǒng)一軟件棧能夠覆蓋全系列產(chǎn)品,覆蓋“云邊端”三個系列,這些產(chǎn)品都可以用同一套軟件來支撐不同的硬件產(chǎn)品。
過去幾年,國產(chǎn)GPU廠商最容易被問到的問題只有一個:“你們性能追到哪一代了?”摩爾線程給出了自己的答案,基于MUSA統(tǒng)一體系,摩爾線程揭曉新一代全功能GPU架構“花港”,該架構在計算密度、能效、精度支持、互聯(lián)能力及圖形技術等方面實現(xiàn)全面突破,其核心特性包括:
計算性能顯著提升:基于新一代指令集,算力密度提升50%,能效大幅優(yōu)化;支持從FP4到FP64的全精度端到端計算,新增MTFP6/MTFP4及混合低精度支持。
異步編程與超大規(guī)?;ヂ?lián):集成新一代異步編程模型,優(yōu)化任務調度與并行機制;通過自研MTLink高速互聯(lián)技術,支持十萬卡以上規(guī)模智算集群擴展。
圖形與AI深度融合:內置AI生成式渲染架構,增強硬件光線追蹤加速引擎,完整支持DirectX 12 Ultimate,實現(xiàn)圖形渲染與智能計算的高度協(xié)同。
全棧自研與安全可信:架構基于全棧自主研發(fā),擁有扎實的專利壁壘(截至2025年6月30日,公司累計授權專利514項,其中發(fā)明專利468項),具備全棧自研與自主可控的核心能力。通過四層硬件安全架構,提供從芯片到系統(tǒng)的可驗證安全守護。
基于“花港”架構,摩爾線程公布了未來將發(fā)布的兩款芯片技術路線:
“華山”專注AI訓推一體與超大規(guī)模智能計算。集成新一代異步編程與全精度張量計算單元,支持從FP4至FP64的全精度計算,為萬卡級智算集群提供穩(wěn)定高效的算力支撐,是構建下一代“AI工廠”的堅實底座。
![]()
“廬山”專攻高性能圖形渲染。其圖形性能實現(xiàn)全面跨越:AI計算性能提升64倍,幾何處理性能提升16倍,光線追蹤性能提升50倍,并顯著增強紋理填充、原子訪存能力及顯存容量。集成AI生成式渲染、UniTE統(tǒng)一渲染架構及全新硬件光追引擎,為3A游戲、高端圖形創(chuàng)作提供強大算力支持。
人工智能基礎設施的邊界早已突破芯片的邊界,摩爾線程也將自己的能力拓展到集群系統(tǒng)層面。
本次大會,摩爾線程正式發(fā)布了夸娥萬卡智算集群。該集群具備全精度、全功能通用計算能力,在萬卡規(guī)模下實現(xiàn)高效穩(wěn)定的AI訓練與推理。其核心突破包括:浮點運算能力達到10Exa-Flops,訓練算力利用率(MFU)在Dense大模型上達60%,MOE大模型上達40%,有效訓練時間占比超過90%,訓練線性擴展效率達95%,與國際主流生態(tài)高度兼容,并在多項指標上具備顯著能效優(yōu)勢。
在訓練側,基于原生FP8能力完整復現(xiàn)頂尖大模型訓練流程,并在多項關鍵精度指標上達到國際主流水平。技術層面實現(xiàn)關鍵優(yōu)化:Flash Attention算力利用率超95%,并突破FP8累加精度等關鍵技術瓶頸,充分釋放國產(chǎn)GPU在大模型訓練中的性能潛力。
在推理側,摩爾線程聯(lián)合硅基流動,經(jīng)過系統(tǒng)級工程優(yōu)化與FP8精度加速,在DeepSeek R1 671B全量模型上實現(xiàn)性能突破:MTT S5000單卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s,樹立國產(chǎn)推理性能新標桿。
面向未來,發(fā)布了MTT C256超節(jié)點的架構規(guī)劃。該產(chǎn)品采用計算與交換一體化的高密設計,旨在系統(tǒng)性提升萬卡集群的訓練效能與推理能力,為下一代超大規(guī)模智算中心構建兼具超高密度與極致能效的硬件基石。
摩爾線程這場大會,更像是一種國產(chǎn)算力進入長期主義階段的宣言。這條路不會快,也不會輕松,但至少,從這次MDC開始,它不再是零散的點,而是一條能被復述、被理解、被跟隨的路線。(本文作者 | 張帥,編輯 | 蓋虹達)
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論