文 | 沈素明
在每一場關(guān)于人工智能的發(fā)布會(huì)上,算力數(shù)值(TFLOPS)總是被擺在最顯眼的位置。但對(duì)于真正的企業(yè)管理者來說,屏幕上的峰值算力只是“紙面富貴”。一旦真正把預(yù)算投入國產(chǎn)GPU市場時(shí),會(huì)發(fā)現(xiàn)并沒有買到生產(chǎn)力,而是買到了一張通往“技術(shù)孤島”的單程票。
中國GPU產(chǎn)業(yè)正在經(jīng)歷現(xiàn)代版的“巴別塔”困境:數(shù)十家廠商各起爐灶,試圖構(gòu)建屬于自己的算力秩序。然而,這種缺乏共識(shí)的戰(zhàn)略自主,上演的卻是產(chǎn)業(yè)的內(nèi)耗。
一、CUDA的生態(tài)壟斷遠(yuǎn)比芯片更猛
如果說英偉達(dá)的芯片是AI時(shí)代的“發(fā)動(dòng)機(jī)”,那么CUDA(統(tǒng)一計(jì)算設(shè)備架構(gòu))就是這個(gè)時(shí)代的“汽油標(biāo)準(zhǔn)”。
現(xiàn)在的全球AI開發(fā)體系是完全建立在CUDA之上的。從頂層的PyTorch、TensorFlow等算法框架,到數(shù)以萬計(jì)的庫文件和開發(fā)者經(jīng)驗(yàn),形成了一套極其粘性的“數(shù)字母語”。對(duì)于一個(gè)AI項(xiàng)目負(fù)責(zé)人來說,選擇CUDA不是因?yàn)橹艺\,而是因?yàn)檫@是效率最高、風(fēng)險(xiǎn)最低的默認(rèn)選項(xiàng)。
目前國產(chǎn)GPU中有很大一部分選擇了“兼容CUDA”的路線。這在管理決策上看似是捷徑——通過同聲傳譯(編譯層轉(zhuǎn)換)讓英偉達(dá)的代碼能跑在國產(chǎn)卡上。但代價(jià)是沉重的:轉(zhuǎn)換過程必然帶來20%甚至更多的性能損耗。更關(guān)鍵的是,你永遠(yuǎn)在別人定義的賽場上跑步,一旦英偉達(dá)更新指令集,國內(nèi)廠商就必須投入海量精力去追趕。這種“兼容”本質(zhì)上是一種依附,讓國產(chǎn)芯片永遠(yuǎn)處于“次優(yōu)實(shí)現(xiàn)”的地位。
二、被割據(jù)的市場與消失的協(xié)作
"巴別塔"之所以倒塌,是因?yàn)檎Z言的分裂。
中國GPU市場現(xiàn)狀亦然:每一家國產(chǎn)GPU廠商都帶著自己的指令集、編譯器和軟件棧入場,試圖在原本統(tǒng)一的市場中切割出屬于自己的領(lǐng)地。華為有CANN,海光有DTK,摩爾線程有MUSA,天數(shù)智芯有深度學(xué)習(xí)軟件棧。這些技術(shù)名稱背后,是互不通氣的技術(shù)壁壘。 想象一下,一家互聯(lián)網(wǎng)大廠采購了三個(gè)品牌的國產(chǎn)GPU,結(jié)果技術(shù)部門必須成立三個(gè)獨(dú)立的適配小組。同一段業(yè)務(wù)代碼,要翻譯成三套“方言”去運(yùn)行。這不僅是硬件成本的浪費(fèi),更是研發(fā)人員生命的虛耗。
我見過一家北京的AI初創(chuàng)企業(yè),為了節(jié)省硬件開支采購了某國產(chǎn)芯片。結(jié)果原本一周能跑通的模型,在適配國產(chǎn)環(huán)境時(shí)卡了三個(gè)月。這三個(gè)月的人力成本、機(jī)會(huì)成本,遠(yuǎn)超那點(diǎn)硬件差價(jià)。在管理者的賬本里,這叫“負(fù)向杠桿”:為了支持自主,賠上了業(yè)務(wù)的生存窗口。
三、 突圍沒有捷徑
面對(duì)割據(jù)現(xiàn)狀,國內(nèi)廠商分化出了三種生存策略,但每條路都是管理的兩難:
“翻譯官”路線(兼容派):代表廠商通過模擬CUDA生態(tài)快速切入。它的好處是“拿來主義”,壞處是法律風(fēng)險(xiǎn)高、性能折損嚴(yán)重,且永遠(yuǎn)無法在技術(shù)底層獲得話語權(quán)。
“鐵腕統(tǒng)領(lǐng)”路線(全棧自主):以華為為代表,從底層芯片到頂層昇思框架(MindSpore)全搞。這路子最硬氣,但它對(duì)客戶的“綁架”也最深。用了它的卡,就必須用它的軟件,甚至得改變編程習(xí)慣。這是一種“小生態(tài)”對(duì)抗“大生態(tài)”的戰(zhàn)爭,需要巨額的補(bǔ)貼和政策護(hù)航才能維持。
“特種兵”路線(ASIC專用芯片):針對(duì)視頻編碼或特定算法做極致優(yōu)化。在特定場景下,它能打贏英偉達(dá),但在通用大模型時(shí)代,這種“偏科生”很難支撐起企業(yè)的算力底座,極易淪為棄子。
四、 要命的“時(shí)間稅”
在AI競賽中,時(shí)間是比金錢更稀缺的資源。中國GPU產(chǎn)業(yè)目前最大的痛點(diǎn),就是讓所有參與者都在支付沉重的“時(shí)間稅”。
英偉達(dá)的節(jié)奏快得令人窒息。當(dāng)它發(fā)布新一代架構(gòu)時(shí),國產(chǎn)廠商往往需要半年甚至一年的時(shí)間去做軟件適配。這意味著,當(dāng)競爭對(duì)手已經(jīng)用最新的算力跑出成果時(shí),你還在調(diào)試那個(gè)已經(jīng)過時(shí)的架構(gòu)。
很多企業(yè)購買國產(chǎn)GPU后發(fā)現(xiàn),硬件的算力是100T,實(shí)際跑出來只有50T,剩下的50T被由于生態(tài)不成熟產(chǎn)生的Bug、延遲和冗余損耗掉了。管理者以為買到了國產(chǎn)替代的門票,實(shí)際買到的是“算力折扣券”,這種效率的負(fù)反饋,正在拖慢整個(gè)產(chǎn)業(yè)的迭代速度。
五、如何在割據(jù)中尋找共識(shí)?
巴別塔的困境并不會(huì)因某家公司的突破而瞬間消失。資本市場催生了太多同質(zhì)化的GPU初創(chuàng)公司。大家都在燒錢做同樣的適配工作,而不是在底層數(shù)學(xué)邏輯或制程工藝上做突破。這種“內(nèi)卷式”的創(chuàng)新,本質(zhì)上是對(duì)社會(huì)資源的極大浪費(fèi)。當(dāng)算力適配成本居高不下時(shí),應(yīng)用層的AI公司將承受巨大的生存壓力。當(dāng)算力開支吞噬了研發(fā)投入,創(chuàng)新的火苗就會(huì)熄滅。
未來很長一段時(shí)間,GPU產(chǎn)業(yè)會(huì)處于一種“多方言并行”的狀態(tài)。大廠為了供應(yīng)鏈安全不得不忍受低效,中小企業(yè)則繼續(xù)在CUDA的溫室里徘徊。這種割據(jù)不打破,所謂的“算力底座”就只能是一盤散沙。
六、自主不是孤立,更不是閉門造車
中國GPU產(chǎn)業(yè)的“巴別塔”困境,是一個(gè)關(guān)于標(biāo)準(zhǔn)、協(xié)作與博弈的死結(jié)。我們并不缺能畫出芯片圖紙的天才,缺的是能讓大家坐在同一張桌子上談?wù)?ldquo;標(biāo)準(zhǔn)”的機(jī)制。如果自主研發(fā)的結(jié)果是制造出無數(shù)個(gè)互不兼容的孤島,那么這種自主不僅無法對(duì)抗壟斷,反而會(huì)成為我們在AI時(shí)代沉重的肉身。
算力的競爭,歸根結(jié)底是生態(tài)效率的競爭。在追求芯片國產(chǎn)化的道路上,我們不僅要搬磚建塔,更要先學(xué)會(huì)“說同一種語言”。







快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號(hào)后發(fā)表評(píng)論