文 | 深觀商業(yè)
如果說兩年前的“H800禁售令”引發(fā)的是中國客戶恐慌性的囤貨狂潮,當英偉達再次交出一份全球營收創(chuàng)新高但中國區(qū)占比滑落至10%警戒線的財報時,市場的情緒已經從恐慌轉為了冷漠。
面對華爾街分析師關于“特供版芯片在中國市場訂單不及預期”的尖銳追問,這位身穿標志性皮衣的CEO罕見地陷入了沉默。他試圖用“復雜的監(jiān)管環(huán)境”來搪塞,但所有人都聽出了潛臺詞中的無力感。
當為了合規(guī)而自我閹割的特供版芯片,在性能上被國產“新貴”們逼平,在價格上又因高昂的供應鏈成本而居高不下時。那個曾經只要在PPT上畫出一張卡,就能讓中國互聯(lián)網巨頭提著現(xiàn)金排隊的時代,已經徹底終結了。
精準的刀法與失衡的性價比
英偉達再次推出針對中國市場的特供芯片H20時,其算盤打得極其精明:通過降低芯片的峰值性能以符合美國出口管制要求,同時保留高速互聯(lián)帶寬和CUDA生態(tài)的兼容性。在英偉達看來,這是中國客戶在“算力饑渴”下的唯一解藥。
市場用腳投出的票,卻給了這種傲慢一記響亮的耳光。為了滿足美國對“算力密度”和“互聯(lián)帶寬”的雙重限制,H20幾乎被“閹割”得面目全非。這就導致H20在實際的大規(guī)模訓練集群中,其有效算力甚至不如兩年前囤積的H800。
從技術邏輯上看,AI大模型的訓練確實依賴高帶寬,但推理和微調場景對算力密度的要求同樣嚴苛。H20為了合規(guī),將算力“閹割”到了H100的20%甚至更低,但其晶圓面積、封裝成本并沒有顯著下降。
這就導致了一個極其荒謬的TCO模型:中國客戶需要購買比過去多出三倍甚至五倍數(shù)量的顯卡,租用更大的機房空間,消耗更多的電力,搭建更復雜的網絡拓撲,僅僅是為了達到兩年前一張A100卡就能解決的算力水平。
對于精打細算的中國互聯(lián)網大廠和智算中心運營商來說,這筆賬怎么算都是虧的。所以H20的渠道價格就開始出現(xiàn)松動,從最初預期的1.2萬—1.5萬美元高位,一路下探至10萬元人民幣左右,甚至在某些大單采購中出現(xiàn)了比昇騰910B還要低的價格倒掛。
英偉達仿佛陷入了一個死循環(huán):為了合規(guī),必須降低性能;為了維持高毛利和應對復雜的供應鏈合規(guī)成本,價格無法大幅下調;而性能下降、價格堅挺的結果,就是徹底將中低端市場和推理市場拱手讓人。
這種局面的出現(xiàn),并非英偉達技術不行了,而是競爭參照系變了。摩爾線程是這群新貴中最具代表性的一員。如果不說它是國產,你甚至會以為它是英偉達的某個“中國分部”。摩爾線程極度強調“全功能GPU”的概念。
不僅能做AI計算,還要能做3D圖形渲染、視頻編解碼。這種策略極其聰明地切入了英偉達的腹地,它不僅想替代A100/H100,還想替代RTX系列。在2024年到2025年的窗口期,摩爾線程的“夸娥”萬卡集群解決方案開始在業(yè)界嶄露頭角。
它解決了一個核心痛點:對于那些不想被生態(tài)完全綁定,又買不到滿血英偉達的中型企業(yè)和科研機構來說,需要一個架構上更接近傳統(tǒng)GPU、遷移成本更低的替代方案。摩爾線程的MUSA架構在設計之初就考慮了對CUDA代碼的兼容性,大大降低了開發(fā)者的遷移門檻。
其市值已悍然站上3000億元人民幣大關,成為“國產GPU第一股”在科創(chuàng)板站穩(wěn)了腳步。摩爾線程從受理到過會僅用時88天,也創(chuàng)下了科創(chuàng)板的“閃電紀錄”,對于一家成立僅5年的公司而言,這種“跑步上市”的盛況,在A股歷史上極為罕見。
與此同時,壁仞科技在港交所的招股進入最后沖刺階段,擬募資額接近50億港元。翻開招股書,這些“獨角獸”的財務報表依舊是“鮮血淋漓”,基石投資者名單中也不乏頂級國資與險資的身影。
國產算力不再僅僅是“備胎”
二級市場給予的高估值,透支的是未來十年的預期。投資者賭的不僅是某一家公司的技術,更是賭在中國這個全球最大的半導體消費市場中,必然會誕生一到兩家能與英偉達分庭抗禮的巨頭。
從昇騰910C在核心訓練集群的規(guī)模化部署,到DeepSeek等頭部大模型廠商公開為國產算力站臺,中國芯片廠商不再是“備胎”,而是真正坐上了牌桌。對于面臨巨大盈利壓力的云廠商來說,繼續(xù)迷信英偉達,就是對股東不負責任。
字節(jié)跳動、阿里巴巴、騰訊等互聯(lián)網巨頭,在2025年的算力采購策略上表現(xiàn)出了驚人的一致性。不約而同地將英偉達的存量高端卡集中用于極少數(shù)超大模型的預訓練,而在占據(jù)算力消耗80%以上的推理和微調環(huán)節(jié),激進地引入國產算力。
字節(jié)跳動在2025年的推薦算法集群中,非英偉達芯片的占比更是首次突破了40%。推薦算法可以說是字節(jié)跳動的利潤奶牛,敢于在核心業(yè)務上動刀,說明國產芯片的穩(wěn)定性已經通過了最嚴苛的實戰(zhàn)考驗。
如果說商業(yè)邏輯的轉變是水面上的波瀾,那么制造環(huán)節(jié)的驚心動魄則是水面下的暗流。美國商務部在今年進一步收緊了對華出口HBM的限制。不僅是頂級的HBM3e,連基礎版本的HBM3也被列入了嚴控范圍。
這對于試圖追趕英偉達的國產GPU廠商來說,無異于釜底抽薪。沒有HBM,高端GPU就是一塊廢硅。國產GPU廠商開始學會“看菜吃飯”,既然買不到最好的HBM,那就通過架構創(chuàng)新來彌補。
摩爾線程和壁仞科技在2025年推出的新一代產品中,普遍采用了更大的片上SRAM緩存和優(yōu)化的顯存壓縮算法,以降低對顯存帶寬的依賴。這種“窮人家的孩子早當家”的設計思路,雖然在極限性能上不如英偉達的暴力堆料,但在實際工程應用中卻展現(xiàn)出了極高的效率。
通富微電、長電科技等國內封測巨頭,在國產2.5D封裝技術上也取得了實質性突破。盡管良率初期慘不忍睹,但依靠國內龐大的市場需求進行“暴力迭代”,到了2025年第三季度,這一數(shù)字已經被拉升至40%—60%的區(qū)間。
雖然與臺積電90%以上的成熟良率相比仍顯稚嫩,但這已經跨越了“商業(yè)化量產”的盈虧平衡點。這意味著,國產大芯片不再是實驗室里的展品,而是可以源源不斷流向數(shù)據(jù)中心的工業(yè)品。
從“能用”到“好用”
長期以來,英偉達最堅固的壁壘并非GPU本身,而是CUDA。那個讓無數(shù)開發(fā)者“不得不愛”的軟件生態(tài),曾被認為是國產芯片不可逾越的天塹。這個龐大、復雜且極其好用的軟件生態(tài),像毒品一樣讓全球的開發(fā)者欲罷不能。
在中國,過去十年的AI繁榮也是建立在CUDA之上的。因此,英偉達曾自信地認為:只要CUDA還在,中國客戶就逃不出我的手掌心。但當“買不到”成為常態(tài),依賴CUDA就變成了一種巨大的經營風險。
對于中國企業(yè)而言,如果底層的算力基座構建在隨時可能被切斷的CUDA之上,那么上層的萬丈高樓皆為虛幻。這種安全意識的覺醒,促使整個行業(yè)開始聯(lián)手構建屬于中國自己的軟件標準。
而這道天塹被填平的速度,超出了所有人的預期。以摩爾線程和壁仞為代表,通過兼容CUDA代碼,降低遷移成本。摩爾線程的MUSA在2025年開發(fā)者大會上展示了驚人的兼容性,數(shù)萬行代碼的遷移時間被壓縮到了小時級。
在2025年,絕大多數(shù)算法工程師不再需要手寫底層的CUDA算子。通過編譯器技術的突破,開發(fā)者只需關注上層的Python代碼,底層的適配工作由編譯器自動分發(fā)到不同的后端,無論是Nvidia GPU,還是Ascend,亦或是海光DCU。
技術層面的“去CUDA化”正在加速。百度飛槳、阿里通義千問、騰訊混元大模型,都在底層代碼層面做了大量的適配工作。通過編譯器優(yōu)化、算子庫重寫以及自動轉換工具,在主流的大模型訓練和推理任務中,這種差距已經被縮小到了“可接受”的范圍。
這種“去底層化”的趨勢,極大地降低了國產芯片的遷移門檻。更重要的是,圍繞CANN形成了一個龐大的開發(fā)者社區(qū)。在GitHub和Gitee上,針對昇騰芯片的模型適配代碼庫數(shù)量在2025年呈現(xiàn)出指數(shù)級增長。
除了在大模型訓練端的廝殺,國產GPU開始滲透進渲染、數(shù)字孿生、云游戲等邊緣市場。摩爾線程的“夸娥”千卡集群在數(shù)字人渲染上的應用,證明了GPU不僅僅只有AI這一條路可走。
海光信息在2025年財報中也披露,其DCU產品在通算領域的生態(tài)兼容性已達到95%以上。
當軟件不再是瓶頸,硬件的性價比優(yōu)勢就會被無限放大。在占據(jù)市場90%份額的成熟模型訓練和推理場景中,CUDA的“神諭”地位已經動搖。
當然我們必須清醒地看到,“碎片化”依然是國產GPU的頑疾。海光有DCU,摩爾線程有MUSA,壁仞有BIRENSUPA……每一家都有一套自己的編程模型。對于下游軟件開發(fā)商來說,適配這七八套系統(tǒng)簡直是噩夢。
2025年下半年,行業(yè)內開始出現(xiàn)整合的呼聲。雖然物理層面的合并尚早,但軟件層面的互通標準,例如OpenCL的某些國產化變體開始被提上日程。誰能統(tǒng)一這個破碎的江湖,誰就是下一個時代的盟主。
2024年英偉達在中國市場的份額一度高達80%以上,而到了2025年底,這一數(shù)字被壓縮至60%左右。這丟失的20%,是被“四小龍”硬生生啃下來的,但是對于這些芯片新貴而言,IPO敲鐘的那一刻,才是真正殘酷淘汰賽的開始。







快報
根據(jù)《網絡安全法》實名制要求,請綁定手機號后發(fā)表評論