“如果頂尖的AI模型被優(yōu)化在華為芯片上運行,對美國而言將是‘可怕的后果’。”
這是英偉達CEO黃仁勛近期在一檔播客節(jié)目中發(fā)出的警告。讓他發(fā)出警告的對象,是即將發(fā)布新模型的中國AI公司DeepSeek。
讓黃仁勛警惕的,并不是某個具體的模型能力,而是另一件事——綜合多家權威媒體報道:DeepSeek-V4模型在設計之初便優(yōu)先圍繞華為昇騰AI體系進行適配。
一旦成功繞過英偉達的CUDA體系,DeepSeek將不再只是英偉達生態(tài)里的一個“租戶”,被迫接受高昂的“算力租金”和隨時可能斷供的供應鏈風險,而是成為能自主定義算力效率、掌握技術棧主導權的“規(guī)則制定者”。
黃仁勛的這種擔憂在今天(4月24日)成為了半個現(xiàn)實。
沉寂近五個月后,DeepSeek帶著V4重新回到市場中心,在其定價說明中,有一行幾乎被忽略的灰色小字:受限于高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節(jié)點批量上市后,Pro的價格會大幅下調(diào)。
這一細節(jié)至少說明,國產(chǎn)算力已經(jīng)在DeepSeek的整體體系中占據(jù)了重要位置,甚至在關鍵路徑上開始影響其成本結(jié)構(gòu)與定價邏輯。
這并不意味著既有格局被打破。從技術報告來看,DeepSeek當前最成熟、最穩(wěn)定的實現(xiàn)仍然建立在CUDA體系之上,核心算子與工程優(yōu)化依舊集中在英偉達生態(tài)內(nèi)。這也意味著,在短期內(nèi),CUDA仍然是行業(yè)默認的“最優(yōu)路徑”。
只是,DeepSeek-V4也證明了,CUDA構(gòu)建的城墻,已經(jīng)不再堅不可摧。
DeepSeek-V4實際上就干了一件事:用極致的工程效率,把“頂級大模型”的門檻打了下來。它沒有單純堆砌參數(shù),而是通過一套組合拳,讓高性能AI變得既好用又便宜。
具體來看,首先是參數(shù)規(guī)模:旗艦版本DeepSeek-v4-pro總參數(shù)達1.6萬億,但每次推理僅激活490億參數(shù);輕量版本DeepSeek-v4-flash則控制在2840億參數(shù)、130億激活規(guī)模。
![]()
同一時期國內(nèi)主流大模型參數(shù)對比。制圖:鏡相工作室
兩個版本背后的邏輯一致:通過MoE(混合專家)架構(gòu),在不顯著增加實際算力負擔的前提下擴展模型容量。通過工程優(yōu)化,讓模型在推理時只調(diào)用最相關的部分,從而實現(xiàn)低成本下的頂級性能。這種結(jié)構(gòu)換算力的思路在V2時期已初見成效,在V4中被進一步放大。
在上下文能力上,DeepSeek直接將100萬tokens作為“所有官方服務的標配”。相當于你用它的App、網(wǎng)站或API,默認就能一次性上傳一整本《紅樓夢》、整個項目的代碼庫或一份完整的年度報告,讓AI從頭到尾讀完并處理。
在行業(yè)中,長期存在上下文越長,成本越高的矛盾。傳統(tǒng)的AI模型為了理解長文本,它需要記住每個字,并且計算每個字和全文中其他所有字的關聯(lián)。相當于為了一句話,就需要翻閱并重讀整本字典,效率極低,成本也高。
而V4沒有硬扛這個數(shù)學難題,而是用DSA稀疏注意力(DeepSeek Sparse Attention)的新機制,通過“打包摘要”和“只抓重點”,大幅降低了處理和記憶長文的計算量與成本。百萬字的長文在AI的“工作內(nèi)存”(顯存)里,就變成了幾百個高度濃縮的要點,體積和負擔驟減。
如果這一機制能夠在真實場景中穩(wěn)定運行,那么長上下文能力將從高端模型的附加項,逐漸轉(zhuǎn)向應用層的基礎配置。
再來看能力層面的變化:
Agent能力方面,V4-Pro已進入開源模型的第一梯隊。在Agentic Coding評測中,其表現(xiàn)達到當前開源最優(yōu)水平,并在內(nèi)部直接作為工程團隊的編碼工具使用。評測反饋中一個頗具參考價值的細節(jié)是,其輸出質(zhì)量已經(jīng)接近美國AI企業(yè)Anthropic高端模型的常規(guī)非思考模式,但在更復雜的思考模式上仍有差距。
推理能力方面,在數(shù)學、STEM以及競賽級代碼任務中,V4-Pro的表現(xiàn)超過現(xiàn)有公開評測中的開源模型,并逐步逼近頂級閉源產(chǎn)品。
世界知識方面,V4-Pro大幅領先其他開源模型,和谷歌的頂尖閉源模型Gemini-Pro-3.1存在差距。
這些能力并非孤立存在,而是圍繞具體應用場景展開。V4針對Claude Code、OpenClaw、CodeBuddy等主流Agent工具進行了適配,在代碼生成與文檔處理等任務中優(yōu)化表現(xiàn)??梢钥闯觯哪繕瞬⒉皇浅蔀樽钊娴哪P?,而是更直接地嵌入開發(fā)流程,承擔實際生產(chǎn)任務。
系統(tǒng)層面則藏著DeepSeek能夠便宜下來的“秘密”。
技術報告顯示,DeepSeek在系統(tǒng)底層做了一套“細粒度專家并行(EP)”方案,簡單理解,就是優(yōu)化了AI模型在芯片上的“調(diào)度算法”,讓計算和通信能像流水線一樣重疊進行。
這套方案已在英偉達GPU與華為昇騰NPU兩套體系上完成驗證,推理速度提升了約1.5到2倍。這意味著同樣的芯片,能處理更多的用戶請求,單位成本自然就降了。
不過,從開源實現(xiàn)來看,當前最成熟的版本仍基于CUDA。也就是說,核心優(yōu)化具備跨平臺能力,但工程上的最優(yōu)路徑依然集中在既有的英偉達體系之中,這種狀態(tài)為后續(xù)的遷移與擴展保留了空間。
定價依舊是DeepSeek最讓同行牙癢癢的地方。在緩存命中條件下,Pro版本輸入價格為1元/百萬token,F(xiàn)lash版本低至0.2元;Pro版本輸出價格24元/百萬tokens,F(xiàn)lash版本輸出價格2元/百萬tokens,都顯著低于其他模型水平。
![]()
在DeepSeek-V4定價表格下方,一行小字值得關注:受限于高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節(jié)點批量上市后,Pro的價格會大幅下調(diào)。
![]()
當價格調(diào)整開始“錨定”某一類算力集群的部署進度時,背后往往意味著該類算力已經(jīng)在整體體系中占據(jù)了相當權重,至少在關鍵路徑上具備決定性影響。
對于DeepSeek而言,這更像是一種間接披露——其推理或服務體系,正在越來越多地建立在國產(chǎn)算力之上,而算力供給的變化,已經(jīng)能夠直接傳導到定價層。
同時,這一邏輯還隱含著另一層變化——模型價格不再只是取決于算法效率,而是開始由算力結(jié)構(gòu)決定。隨著昇騰超節(jié)點進入規(guī)?;A段,單位算力成本下降所帶來的,不只是利潤空間的釋放,更是價格體系的重塑能力。也正是在這一意義上,DeepSeek的低價策略,正在從工程優(yōu)化驅(qū)動,逐步過渡到算力體系驅(qū)動。
從內(nèi)外部環(huán)境看,讓新模型優(yōu)先適配國產(chǎn)芯片,是DeepSeek有意推進的事。它想做的不只是多找?guī)准铱捎玫腁I芯片供應商,更是在嘗試觸碰更底層的東西——通過擺脫英偉達的束縛,走出由上游芯片廠商定義規(guī)則、模型公司被動適配的關系,進而反過來重塑上游。這是DeepSeek真正的野心。
理解這一點,要先理解梁文鋒。從更早的時間點來看,DeepSeek對算力的重視帶有一種近乎偏執(zhí)的前瞻性。2015年,甚至更早的2012年,他們就關注到算力儲備,至生成式AI爆發(fā)前夜,已囤積了大量英偉達A100芯片,后來成為了“大廠外唯一一家儲備萬張A100芯片的公司”。
梁文鋒在接受暗涌采訪時說:“對研究員來說,對算力的渴求是永無止境的。做了小規(guī)模實驗后,總想做更大規(guī)模的實驗。”這種渴求背后對應著一個現(xiàn)實的問題,大模型公司的核心生產(chǎn)資料不僅是代碼,更是算力本身;誰能夠掌控算力,誰才有資格穩(wěn)定地研發(fā)、生產(chǎn)模型。
所以DeepSeek后來做的,不只是爭取更多算力,而是在試圖降低對單一算力體系的依賴。其選擇國產(chǎn)AI芯片,本質(zhì)上是在建立一套可控的、可持續(xù)的生產(chǎn)體系。
而這種抉擇,幾乎貫穿了其過去多年模型研發(fā)的始終。簡單說,它在做兩件事:一是繞開英偉達設定好的部分“規(guī)則”,二是在嘗試給自己造一個跨不同芯片都能工作的“萬能轉(zhuǎn)換頭”。
第一步發(fā)生在模型架構(gòu)層。2024年5月發(fā)布的V2,用MoE架構(gòu)大幅降低了模型對算力的消耗。它像是把一個龐大的專家團隊拆分成許多小組,每次只調(diào)動最合適的一小部分人干活,而不是讓所有人同時上陣。結(jié)果是,總參數(shù)規(guī)模雖然很大,但每次真正參與計算的只是一小部分。
到了R1和V3階段,DeepSeek向底層“施工現(xiàn)場”下探。我們可以把CUDA理解成英偉達給開發(fā)者制定的一套通用施工規(guī)范,絕大多數(shù)模型都按照這套規(guī)范搭房子。而DeepSeek開始嘗試繞開其中部分標準流程,直接接觸更接近硬件的PTX(英偉達為編程其GPU而引入的一種并行線程執(zhí)行架構(gòu)的中間語言)指令,自己調(diào)配鋼筋、水泥和施工順序。
這樣做很難,因為越靠近底層,越需要對硬件細節(jié)有極深理解。但好處也明顯,同樣一塊GPU能榨出更多性能,甚至在硬件條件不占優(yōu)時,用工程優(yōu)化彌補部分差距,從而降低對高端GPU的依賴程度。
前兩步還是在英偉達體系內(nèi)做更高難度的優(yōu)化,去年9月V3.2-Exp的嘗試,開始有了另一層意味。他們對主流算子庫做了調(diào)整,引入了TileLang——一個“萬能轉(zhuǎn)換頭”。
過去開發(fā)算子(模型運轉(zhuǎn)最底層的計算單元),很像給不同國家的電器配插頭,每換一種GPU,都要重新改寫一遍代碼,成本高、周期長,而且高度依賴CUDA。DeepSeek的方案是,先用一種更高層、更通用的語言把計算邏輯寫出來,再把它翻譯成適配不同GPU的代碼。
TileLang就是這樣一種嘗試。開發(fā)者可以先用更接近Python(AI研發(fā)的世界語)的方式快速寫出算子原型,再通過編譯器映射到底層執(zhí)行,并結(jié)合具體硬件做優(yōu)化。這樣一來,過去一塊GPU寫一套代碼的方式,就開始變成先寫通用邏輯,再做局部適配。華為部分芯片也在推進對TileLang的適配,意義正在這里。
從架構(gòu)創(chuàng)新,到規(guī)則繞行,再到算子庫改寫、國產(chǎn)芯片大規(guī)模適配,DeepSeek的野心越來越大,走的路也越來越崎嶇。
從V2到V4,中間橫跨15個月,期間經(jīng)歷長時間沉寂。外界看到的是發(fā)布頻率偏低,看不見的是大量系統(tǒng)工程投入。這類軟硬件協(xié)同創(chuàng)新,本來就比單純做模型參數(shù)迭代難得多,因為動的不只是模型,還有底層技術棧。這也解釋了,為什么R1之后DeepSeek人才會成為大廠爭奪目標——行業(yè)意識到了這種工程路線的價值。
但技術理想主義之外,DeepSeek還有現(xiàn)實考慮。作為一家堅持開源路線的模型公司,DeepSeek天然缺乏類似OpenAI那樣的閉環(huán)商業(yè)能力,也沒有谷歌或亞馬遜那樣可以內(nèi)部消化模型成本的云計算體系,更沒有騰訊、阿里、字節(jié)等大廠那樣完備的商業(yè)生態(tài),開源意味著更強的影響力和更快的擴散速度,但也意味著更薄的利潤空間和更高的成本敏感度。
這也是為什么DeepSeek在V2模型階段就選擇用極致的成本打穿市場,直接掀起一場“價格戰(zhàn)”,本質(zhì)還是通過工程能力換取商業(yè)空間。但這種優(yōu)勢建立在一個前提上,那就是算力成本必須可控。一旦GPU價格上漲或供給收緊,成本優(yōu)勢就會迅速被侵蝕。因此,對于一家開源公司來說,擺脫對單一算力生態(tài)的依賴,不只是技術選擇,更是商業(yè)生存的要求。
與此同時,同業(yè)競爭進一步放大了這種壓力。過去一年,大模型高頻迭代,主流廠商幾乎以周為單位發(fā)布新模型,再加上多位核心人才流入其他模型廠商或大廠,DeepSeek不得不承認,如果繼續(xù)在既有路徑上與同業(yè)競爭,很可能陷入節(jié)奏與資源的雙重劣勢。
在這樣的背景下,DeepSeek選擇將萬億級參數(shù)的自研模型優(yōu)先適配國產(chǎn)芯片,甚至有意延后向英偉達、AMD提供訪問權限,給國產(chǎn)芯片留足軟硬件適配、調(diào)優(yōu)的時間,是一種改變游戲規(guī)則的嘗試。相比在英偉達CUDA體系內(nèi)與同業(yè)正面競爭,DeepSeek更有可能通過軟硬件協(xié)同的方式,重新定義自身優(yōu)勢邊界。這也是DeepSeek最擅長的,通過工程與架構(gòu)創(chuàng)新,重寫競爭邊界。
這意味著,它不再只是一個使用算力的公司,而是在嘗試參與定義算力,乃至反過來、自下而上重塑這套生態(tài)。
![]()
DeepSeek正通過實現(xiàn)國產(chǎn)芯片軟硬件協(xié)同挑戰(zhàn)英偉達的封鎖地位。圖源:AI生成。
撕裂英偉達CUDA生態(tài)
這是黃仁勛第二次因為DeepSeek而感到緊張。
第一次發(fā)生在R1模型發(fā)布之時。DeepSeek直接沖擊了行業(yè)對算力堆疊的路徑依賴,也在短期內(nèi)引發(fā)了市場對英偉達需求預期的波動。據(jù)報道,去年1月R1模型發(fā)布后,經(jīng)過幾天市場情緒的發(fā)酵,英偉達迎來了股價大跌,在短短三天內(nèi)蒸發(fā)了6000億美元。
彼時,黃仁勛“挽尊”說,DeepSeek及其開源推理模型所帶來的能量“令人無比興奮”,但投資人“判斷錯誤”,誤以為這對英偉達及人工智能(AI)產(chǎn)業(yè)是不利的。它不僅不會終結(jié)AI計算需求,反而會擴大并加速市場對更高效AI模型的追求,從而推動整個行業(yè)的發(fā)展。
但現(xiàn)在,黃仁勛不再避諱對DeepSeek使用華為芯片的焦慮。
要理解這一點,必須回到英偉達真正的護城河——CUDA所構(gòu)建的軟件生態(tài)。
CUDA不僅是一個編程工具,更像是AI時代的“操作系統(tǒng)”;全球數(shù)百萬開發(fā)者圍繞它構(gòu)建了加速庫、框架與模型代碼,一整套開發(fā)范式由此形成。正因為如此,遷移成本極高,一旦離開CUDA,大量底層代碼需要重寫,工程與測試成本動輒達到千萬級別。這才是英偉達長期占據(jù)主導地位的核心原因。
目前,國內(nèi)芯片廠商在試圖填補這一生態(tài)空白。例如華為推出的CANN體系,在設計上直接對標CUDA,通過兼容部分CUDA API和自動轉(zhuǎn)換算子,降低開發(fā)者遷移門檻。同時支持主流框架,并推動自研框架的落地。這種路徑先通過兼容降低切換成本,再逐步建立自身生態(tài)。
雖然當前性能損耗與工程復雜度仍然存在,但大模型廠商也在努力。幾乎所有主流模型廠商,在發(fā)布新模型后,都會同步適配多種國產(chǎn)AI芯片,包括昇騰、昆侖芯、寒武紀等。
不過,在相當長一段時間里,這種適配更多停留在兼容層,大多數(shù)模型仍然圍繞CUDA體系開發(fā),并沒有擺脫英偉達生態(tài)的引力。
DeepSeek的不同之處在于,它并沒有完全依賴這種兼容路徑,不是簡單地遷移,而是在一定程度上重新搭建一套體系,劍指最龐雜的生態(tài)層。
雖然短期內(nèi)DeepSeek很難對英偉達形成實質(zhì)性沖擊,但真正值得關注的是中長期的邊際變化。DeepSeek的特殊性在于,它不僅是一個模型廠商,還是一個擁有廣泛開發(fā)者基礎的開源項目。
根據(jù)OpenRouter統(tǒng)計,截至4月13日的一周,全球大語言模型token(詞元)消耗量榜單中,DeepSeek-V3.2模型消耗量1.28萬億,排名全球第二,僅次于Anthropic旗下的Claude Sonnet 4.6模型,但前者的輸出價格只有后者的約1/12、輸入價格只有1/40。
這意味著,一旦其模型在非CUDA體系上運行成熟,其所帶來的不僅是技術驗證,更可能是開發(fā)者行為的改變。對于開發(fā)者而言,是否遷移,并不完全取決于底層架構(gòu)使用習慣,還取決于模型是否足夠好、成本是否足夠低。
這也正是開源路徑的魅力所在。與閉源模型不同,DeepSeek的技術路線、算子實現(xiàn)以及工程經(jīng)驗,都可以被其他模型廠商和硬件廠商復用。一旦這種路徑被證明可行,其擴散速度可能遠快于單一公司的技術突破。
因此,與其說DeepSeek正在沖擊英偉達,不如說它正在打開一道裂縫。這道裂縫短期內(nèi)不會動搖英偉達的主導地位,但如果越來越多的模型廠商開始在訓練階段嘗試非CUDA、非英偉達路徑、如果越來越多的開發(fā)者開始適應新的工具鏈,那么英偉達長期建立的軟件壁壘,可能會慢慢垮塌。
當然,這一過程仍然充滿不確定性。但可以確定的是,隨著國產(chǎn)模型和芯片的探索,AI時代的競爭,正在從誰的A100更多、更高端,逐步轉(zhuǎn)向誰能構(gòu)建更完整的軟硬件體系。
參考資料
暗涌:《瘋狂的幻方:一家隱形AI巨頭的大模型之路》《DeepSeek 創(chuàng)始人專訪:中國的 AI 不可能永遠在跟隨,技術創(chuàng)新永遠是第一優(yōu)先級》
晚點Latepost:《V4 發(fā)布前的 DeepSeek:特質(zhì)、組織和梁文鋒的獨特目標》
APPSO:《DeepSeek,該卸下掃地僧的枷鎖了》
財經(jīng)AI湃:《沉默了五個月的DeepSeek,在被期待什么?》
21世紀經(jīng)濟報道:《黃仁勛首度回應DeepSeek沖擊!英偉達暴跌系投資者誤解》
Thenextweb: <Nvidia’s Huang warns DeepSeek running on Huawei chips would be ‘horrible’ for the US>
The Information: <DeepSeek’s New AI Model Will Be a Victory for Huawei>
Tomshardware: <DeepSeek's AI breakthrough bypasses industry-standard CUDA for some functions, uses Nvidia's assembly-like PTX programming instead>
Reuters:
【版權聲明】所有內(nèi)容著作權歸屬鏡相工作室,未經(jīng)書面許可,不得轉(zhuǎn)載、摘編或以其他形式使用,另有聲明除外。
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論