隨著云廠商不甘于僅扮演“水電工”角色,逐步進(jìn)入到AI Infra(人工智能基礎(chǔ)設(shè)施)的全棧較量,也就是為AI應(yīng)用提供全生命周期的底層技術(shù)體系,包括訓(xùn)練、推理、部署、數(shù)據(jù)工程、上線運(yùn)維等各個(gè)環(huán)節(jié),標(biāo)志著行業(yè)競(jìng)爭(zhēng)已從單純的資源供給,升級(jí)為全鏈路業(yè)務(wù)賦能的綜合比拼。這時(shí)候,只看token肯定會(huì)一葉障目。
不過(guò),從GPU、Maas到AI infra,AI云的競(jìng)爭(zhēng)要素與指標(biāo),并不是一開(kāi)始就定好了,是與AI行業(yè)同步進(jìn)化,逐漸演變到了當(dāng)下的樣子。
理解這個(gè)演進(jìn)軌跡,比記住一個(gè)簡(jiǎn)單結(jié)論,重要得多。我們就來(lái)回顧一下云廠商的AI大戰(zhàn),是如何循著一條清晰的路徑,逐步聚攏于AI Infra的全面戰(zhàn)場(chǎng)。
2023年chatgpt橫空出世,大模型浪潮席卷全球,算力成為博弈的關(guān)鍵。云廠商成為中國(guó)AI大模型的算力守門(mén)人。這場(chǎng)“廣積糧”式的搶卡大戰(zhàn),更直接奠定了后來(lái)AI云競(jìng)爭(zhēng)格局的基本盤(pán)。
為啥這么說(shuō)呢?沒(méi)有最先進(jìn)的芯片,大模型的訓(xùn)練都無(wú)從談起。一場(chǎng)“搶芯大戰(zhàn)”就此拉開(kāi)帷幕,焦點(diǎn)就是英偉達(dá)高端GPU芯片,尤以H100、A800/H800系列。
可是,一來(lái)N卡很貴,而云廠商是資源大戶,更有實(shí)力全力角逐英偉達(dá)高端GPU資源。據(jù)Omdia統(tǒng)計(jì)數(shù)據(jù),2023年英偉達(dá)售出了50萬(wàn)個(gè)A100和H100 GPU,頭部科技公司瓜分了絕大多數(shù)份額:Meta與微軟各拿下15萬(wàn)塊H100 GPU,購(gòu)買(mǎi)量并列位居第一,谷歌、亞馬遜、甲骨文及騰訊各采購(gòu)5萬(wàn)塊,百度、阿里分別斬獲3萬(wàn)塊與2.5萬(wàn)塊。
![]()
不難看到,騰訊的采購(gòu)策略最為激進(jìn),以5萬(wàn)張H100的采購(gòu)量穩(wěn)居國(guó)內(nèi)首位。憑借充足的芯片儲(chǔ)備,騰訊云率先發(fā)布新一代HCC高性能計(jì)算集群,算力性能較前代提升3倍,縮短大模型訓(xùn)練時(shí)間,搶占了算力競(jìng)賽的先發(fā)優(yōu)勢(shì)。
另一個(gè)原因是,N卡有限制。國(guó)內(nèi)企業(yè)僅能采購(gòu)特供版芯片,但2023年云廠商還能繞過(guò)美國(guó)出口管制政策限制,憑借以往跟英偉達(dá)的供應(yīng)鏈合作關(guān)系,爭(zhēng)奪到高端算力資源。當(dāng)時(shí),百度雖然已經(jīng)有昆侖芯AI芯片,但2023年自研芯片尚未形成規(guī)模。
![]()
(圖源:Omdia報(bào)告)
坊間流傳,當(dāng)時(shí)百度與英偉達(dá)黃仁勛直接對(duì)接,鎖定A800芯片的優(yōu)先供貨權(quán)。而這層關(guān)系背后,是百度長(zhǎng)期在AI領(lǐng)域,特別是飛槳框架構(gòu)建的生態(tài)羈絆。
鮮為業(yè)內(nèi)知曉的是,百度飛槳早在2020年便布局硬件生態(tài),當(dāng)年聯(lián)合13家國(guó)內(nèi)外頂級(jí)硬件廠商發(fā)起“飛槳硬件生態(tài)圈”計(jì)劃,就優(yōu)先綁定了英偉達(dá),作為深度合作伙伴,通過(guò)高頻次中高管對(duì)接,英偉達(dá)組建了專(zhuān)職PM與研發(fā)團(tuán)隊(duì)專(zhuān)項(xiàng)對(duì)接。這種長(zhǎng)期合作積累的信任基礎(chǔ),應(yīng)該為百度參與搶芯大戰(zhàn)提供了不少助力,也有力支撐了百度智能云的AI算力集群,以及文心大模型作為首個(gè)對(duì)標(biāo)chatgpt的中文大語(yǔ)言模型率先問(wèn)世。
可以說(shuō),這一階段的競(jìng)爭(zhēng)勝負(fù),取決于資本實(shí)力與供應(yīng)鏈掌控力。
2023年的搶卡大戰(zhàn),堪稱(chēng)國(guó)內(nèi)云廠商在AI時(shí)代的首場(chǎng)硬仗,為中國(guó)AI的發(fā)展提供了不可或缺的算力彈藥,并影響到后續(xù)戰(zhàn)略走向。后來(lái),算力儲(chǔ)備充足如阿里云,可以通過(guò)降價(jià)搶占市場(chǎng),而受海外供貨限制的華為等廠商,則轉(zhuǎn)向差異化突圍。
同時(shí),當(dāng)競(jìng)爭(zhēng)集中在卡型、算力規(guī)格,也讓供應(yīng)鏈危機(jī)格外凸顯。英偉達(dá)芯片供應(yīng)鏈的不穩(wěn)定性,也讓云廠商開(kāi)始清醒認(rèn)識(shí)到,過(guò)度依賴(lài)外部硬件絕非長(zhǎng)久之計(jì)。自此,國(guó)內(nèi)云廠商紛紛加大自研芯片投入,百度昆侖芯、阿里含光、華為昇騰等產(chǎn)品加速迭代,埋下了國(guó)產(chǎn)硬件突圍的伏筆。
囤了這么多GPU卡,云廠商是不是立馬開(kāi)戰(zhàn)AI了?萬(wàn)萬(wàn)沒(méi)想到,2024年初的第一場(chǎng)云較量是《幻獸帕魯》?,F(xiàn)象級(jí)游戲《幻獸帕魯》爆火,海量玩家的集中涌入導(dǎo)致服務(wù)器瀕臨崩潰,阿里云、華為云、騰訊云、京東云等國(guó)內(nèi)廠商集體響應(yīng),針對(duì)性推出專(zhuān)屬服務(wù)器。
大型游戲云服務(wù),拼的是全球多節(jié)點(diǎn)、充沛算力、穩(wěn)定網(wǎng)絡(luò),以及低價(jià),這跟AI有半毛錢(qián)關(guān)系嗎?大模型熱潮已席卷一年,說(shuō)好的AI云大戰(zhàn)似乎遲遲未進(jìn)入核心階段。
云廠商很快發(fā)現(xiàn),想靠AI+云計(jì)算賺到錢(qián),只堆算力并不夠,還必須將算力轉(zhuǎn)化為企業(yè)開(kāi)箱即用的服務(wù),也就是MaaS(模型即服務(wù))。
與開(kāi)年的云游戲形成鮮明對(duì)比的,是2024年底我參加某頭部云廠商的年度溝通會(huì),其內(nèi)部人士直言,云部門(mén)首次取代政企部門(mén),在集團(tuán)中優(yōu)先登臺(tái)匯報(bào),核心源于亮眼的增長(zhǎng)表現(xiàn),而這份增長(zhǎng)的核心驅(qū)動(dòng)力,正是自研大模型這一“尖刀產(chǎn)品”。
MaaS賽道的競(jìng)爭(zhēng)邏輯,就是把自研大模型,鍛造成切入業(yè)務(wù)場(chǎng)景的一把“尖刀”。
阿里云靠開(kāi)源,通義全系列模型+“百煉”平臺(tái),構(gòu)建模型的微調(diào)與部署一體化,以生態(tài)粘性鎖定用戶,同時(shí)主動(dòng)發(fā)起價(jià)格戰(zhàn)搶占市場(chǎng)份額。百度智能云則文心閉源+模型超市,升級(jí)文心大模型,同時(shí)千帆平臺(tái)支持幾十款主流開(kāi)源模型一鍵調(diào)用,以開(kāi)放的開(kāi)發(fā)者生態(tài)擴(kuò)大影響力。
![]()
騰訊云發(fā)力政企服務(wù)市場(chǎng),在2024年全球數(shù)字生態(tài)大會(huì)上披露,騰訊云“自研+被集成”戰(zhàn)略成效顯著,服務(wù)客戶超200萬(wàn)家,SaaS合作伙伴收入增幅突破100%。
這一年,火山引擎也正式加入AI云大戰(zhàn),憑借極強(qiáng)的工程化能力和推理優(yōu)化,將模型推理成本降低90%以上,直接推動(dòng)AI應(yīng)用規(guī)模化爆發(fā)。
華為云則走出差異化路線。憑借政企市場(chǎng)的積累,發(fā)布盤(pán)古大模型3.0,構(gòu)建L0(基礎(chǔ)層)至L3(行業(yè)層)的四級(jí)架構(gòu),聚焦政務(wù)、金融、制造等場(chǎng)景,以行業(yè)Know-How構(gòu)筑壁壘。
可以看到,這一階段的競(jìng)爭(zhēng)勝負(fù)手,已從單純的算力儲(chǔ)備,轉(zhuǎn)變?yōu)槟P湍芰Α⑿袠I(yè)適配能力。
風(fēng)險(xiǎn)也在醞釀,那就是模型能力幾乎難以拉開(kāi)差距,這就導(dǎo)致Maas服務(wù)對(duì)客戶的鎖定效應(yīng)不明顯。這一困境并不是國(guó)內(nèi)云廠商獨(dú)有的。
《Big AI: Cloud infrastructure dependence and the industrialisation of artificial intelligence》作者調(diào)研也發(fā)現(xiàn),海外云基礎(chǔ)設(shè)施也體現(xiàn)出高度相似性,AWS、Microsoft Azure與GCP雖提供多樣化服務(wù),但核心服務(wù)類(lèi)型與名稱(chēng)高度相似,這凸顯了云基礎(chǔ)設(shè)施的共性要素。
![]()
(圖:云AI堆棧) 注:圖中展示了亞馬遜網(wǎng)絡(luò)服務(wù)、微軟Azure和谷歌云平臺(tái)中云平臺(tái)產(chǎn)品和服務(wù)之間的結(jié)構(gòu)性互聯(lián)。線條粗細(xì)表示引用頻率,指示不同產(chǎn)品和服務(wù)之間聯(lián)系的強(qiáng)度。
究其原因,是AI與云計(jì)算的整合,離不開(kāi)一套完整技術(shù)棧、云基礎(chǔ)設(shè)施工具及服務(wù)生態(tài)中的核心組件,這個(gè)龐大的技術(shù)棧必然有大部分都是重合的。
于是,云廠商的AI大戰(zhàn)開(kāi)始邁入第三階段,轉(zhuǎn)向AI Infra,增強(qiáng)共性基礎(chǔ)要素的綜合競(jìng)爭(zhēng)力。
時(shí)間來(lái)到2025年,兩大核心變量,將AI云競(jìng)爭(zhēng)推向AI Infra(人工智能基礎(chǔ)設(shè)施)的戰(zhàn)場(chǎng)。
一是模型。2025春節(jié),DeepSeek橫空出世,模型重心從訓(xùn)練規(guī)模轉(zhuǎn)向推理效率。即便基于同一款開(kāi)源模型,不同廠商的推理成本差距可通過(guò)Infra優(yōu)化能力無(wú)限拉大,“同模型不同命”讓企業(yè)越來(lái)越重視云基礎(chǔ)設(shè)施的深度優(yōu)化能力。
二是應(yīng)用。Agent智能體應(yīng)用爆發(fā),又是典型的“Token大戶”,AI Infra作為連接算力與應(yīng)用的關(guān)鍵橋梁,直接影響到智能體的能力差異,頭部云廠商與中小玩家的差距持續(xù)擴(kuò)大。
此時(shí),AI云已經(jīng)進(jìn)入AI Infra階段,成為巨頭的游戲。頭部廠商紛紛加碼布局,加速技術(shù)架構(gòu)升級(jí)與組織調(diào)整。阿里云首提基礎(chǔ)設(shè)施,華為云依托昇騰芯片與ModelArts平臺(tái)打造全棧自主可控底座,百度智能云則提出AI-Native服務(wù)架構(gòu),打造從芯片研發(fā)、集群部署到平臺(tái)優(yōu)化的全鏈路技術(shù)閉環(huán),騰訊云也專(zhuān)門(mén)成立AI Infra部門(mén)。
為什么支撐大模型和agent應(yīng)用,離不開(kāi)AI Infra?這背后其實(shí)就是一本經(jīng)濟(jì)賬。
想開(kāi)源,增加AI云的使用量和收入,AI Infra 有極強(qiáng)的生態(tài)鎖定優(yōu)勢(shì)。企業(yè)一旦將核心業(yè)務(wù)Agent部署于某家廠商的Infra之上,遷移成本極高,形成穩(wěn)固的用戶粘性。比如谷歌與Anthropic、Midjourney達(dá)成深度合作,亞馬遜成為Stability AI、Hugging Face的首選云合作伙伴,都是這個(gè)邏輯。
想節(jié)流,硬件芯片的性能釋放效率,完全依賴(lài)Infra層的適配調(diào)度能力。特別是在GPU供給受限的背景下,華為昇騰、寒武紀(jì)、沐曦等國(guó)產(chǎn)集群,更需要深度優(yōu)化來(lái)提升算力利用率,讓云廠商的單位Token成本持續(xù)下降。AI Infra靠自研芯片擺脫對(duì)單一供應(yīng)商的依賴(lài),將推理成本壓至行業(yè)低位,構(gòu)建可持續(xù)的成本優(yōu)勢(shì)。
要知道,云計(jì)算是一門(mén)規(guī)模生意,成本決定生死,成本架構(gòu)的優(yōu)化能力是最底層的競(jìng)爭(zhēng)力。而既能開(kāi)源,又能節(jié)流,AI Infra就成了云廠商在AI時(shí)代最大的利潤(rùn)池與護(hù)城河。
AI Infra的核心競(jìng)爭(zhēng)力,體現(xiàn)在各層級(jí)技術(shù)的全面布局、深度協(xié)同、極致優(yōu)化,分別對(duì)應(yīng)的是技術(shù)架構(gòu)是否完整、技術(shù)之間能不能打通、降本增效效果好不好。
從底層,國(guó)產(chǎn)芯片正為AI Infra奠定基礎(chǔ)。華為昇騰性能已接近英偉達(dá),百度昆侖芯片支持萬(wàn)卡集群部署,阿里含光800專(zhuān)攻云端計(jì)算優(yōu)化,這些國(guó)產(chǎn)芯片的性能提升,持續(xù)強(qiáng)化AI Infra的算力供給能力。
2025年超節(jié)點(diǎn)的火熱,也是系統(tǒng)級(jí)優(yōu)化的一個(gè)成果體現(xiàn),通過(guò)架構(gòu)創(chuàng)新,實(shí)現(xiàn)算力效能倍增。比如百度天池256/512超節(jié)點(diǎn)通過(guò)拓?fù)鋬?yōu)化,將卡間互聯(lián)帶寬提升4倍;華為云CloudMatrix 384超節(jié)點(diǎn)將384顆昇騰NPU與192顆鯤鵬CPU互聯(lián),都填補(bǔ)了國(guó)產(chǎn)超節(jié)點(diǎn)集群的市場(chǎng)空白。
當(dāng)然,算力資源只是基礎(chǔ),能否實(shí)現(xiàn)規(guī)?;{(diào)度、穩(wěn)定推理、低成本運(yùn)營(yíng)及生產(chǎn)環(huán)境長(zhǎng)期適配,才是對(duì)云廠商全棧能力的終極考驗(yàn)。百度百舸平臺(tái)、華為云昇騰與CANN、火山引擎HiAgent體系,都是通過(guò)全鏈路優(yōu)化讓算力真正好用、易用。
可以說(shuō),有了可持續(xù)的AI Infra,云廠商就算打價(jià)格戰(zhàn),也比別人的血條更厚、撐得更久。
阿里云宣布未來(lái)三年投入超3800億元用于云和AI硬件基礎(chǔ)設(shè)施建設(shè),騰訊新成立AI Infra(人工智能基礎(chǔ)設(shè)施)部,頭部廠商的持續(xù)加碼,印證了AI Infra的長(zhǎng)期價(jià)值。而這一切,最終都回歸到AI云的核心邏輯:誰(shuí)能讓AI跑得更穩(wěn)、更省,誰(shuí)就能聚集起更大的用戶規(guī)模,建立強(qiáng)者恒強(qiáng)的行業(yè)地位。
云起AI之潮,決戰(zhàn)Infra之巔,云廠商的AI大戰(zhàn),接下來(lái)將進(jìn)入到白熱化階段。
上世紀(jì)末的光纖基建狂潮,為后來(lái)的Google、Facebook崛起,以及互聯(lián)網(wǎng)時(shí)代的爆發(fā),筑牢了物理根基。今天,云產(chǎn)業(yè)正在復(fù)刻這一邏輯。
頭部云廠商砸下千億級(jí)資金布局AI基礎(chǔ)設(shè)施,本質(zhì)是在為下一個(gè)時(shí)代的科技巨頭搭建成長(zhǎng)底座。AI Infra作為AI時(shí)代的水電煤,直接決定了未來(lái)十幾年智能產(chǎn)業(yè)的發(fā)展格局。戰(zhàn)局如何演進(jìn),讓我們拭目以待。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論