當(dāng)生成式AI從實驗室走向產(chǎn)業(yè)一線,企業(yè)級AI落地已從“可選創(chuàng)新”變?yōu)?ldquo;生存必需”。但是當(dāng)前企業(yè)級在部署AI應(yīng)用的過程中,仍面臨了很多挑戰(zhàn)。IDC發(fā)布的《邊緣進(jìn)化:從核心到邊緣驅(qū)動成功》報告揭示,37%已部署生成式AI的企業(yè)中,超60%反饋“實時交互類應(yīng)用響應(yīng)延遲超預(yù)期”,而高昂的算力成本則讓更多企業(yè)陷入“部署即虧損”的困境。

在智能體產(chǎn)業(yè)化加速到來的今天,算力需求的指數(shù)級激增與成本控制的剛性約束形成尖銳博弈,成為橫亙在企業(yè)級AI規(guī)?;涞孛媲暗暮诵谋趬?。浪潮信息首席AI戰(zhàn)略官劉軍的判斷直指行業(yè)本質(zhì):“智能體產(chǎn)業(yè)化的核心三要素是能力、速度和成本,其中token交互速度決定商業(yè)價值,token成本決定盈利能力,而這兩者的根基都在于算力基礎(chǔ)設(shè)施的革新。”

企業(yè)級AI落地陷入“規(guī)模悖論”

進(jìn)入智能體時代,企業(yè)級AI的應(yīng)用場景已從早期的簡短問答升級為超長上下文交互、多任務(wù)協(xié)同規(guī)劃等復(fù)雜形態(tài),隨之而來的是算力需求的爆炸式增長與成本的失控式攀升,形成了“不規(guī)?;瘎t無價值,一規(guī)模化則虧成本”的行業(yè)悖論。這種雙重擠壓不僅體現(xiàn)在硬件采購的直接投入上,更滲透在推理運行、運維管理等全生命周期的成本支出中,成為制約企業(yè)級AI商業(yè)化的核心瓶頸。

中國報告大廳的數(shù)據(jù)顯示,企業(yè)級AI系統(tǒng)對算力的需求年均增長達(dá)200%,遠(yuǎn)超硬件技術(shù)迭代速度。這一增長并非簡單的數(shù)量疊加,而是源于應(yīng)用場景的深度與廣度雙重拓展。

而這些需求落在硬件層面是對算力服務(wù)器的訴求,IDC與浪潮信息聯(lián)合發(fā)布的《2025年中國人工智能計算力發(fā)展評估報告》中指出,2024年全球人工智能服務(wù)器市場規(guī)模已達(dá)1251億美元,2025年將增至1587億美元,2028年有望突破2227億美元,其中生成式AI服務(wù)器占比將從2025年的29.6%提升至2028年的37.7%。這一數(shù)據(jù)背后,是全球范圍內(nèi)AI算力需求的爆發(fā)式增長,以及算力產(chǎn)業(yè)在技術(shù)架構(gòu)、市場結(jié)構(gòu)、發(fā)展模式上的全方位重構(gòu)。

從場景深度來看,智能體的復(fù)雜任務(wù)處理對算力提出了前所未有的要求:金融領(lǐng)域的量化交易智能體需要在毫秒級完成海量市場數(shù)據(jù)的分析與決策,制造業(yè)的質(zhì)檢智能體需實時處理高清圖像流并精準(zhǔn)識別微小缺陷,零售行業(yè)的智能導(dǎo)購則要同步響應(yīng)多用戶的個性化需求并聯(lián)動庫存、物流系統(tǒng)。

IDC發(fā)布的《邊緣進(jìn)化:從核心到邊緣驅(qū)動成功》中顯示,37%已部署GenAI的企業(yè)中,超60%反饋“實時交互類應(yīng)用響應(yīng)延遲超預(yù)期”。以電商虛擬試衣間為例,用戶上傳圖像后需等待核心云完成AI推理,單次交互延遲常達(dá)2-3秒,轉(zhuǎn)化率較預(yù)期下降40%。

而劉軍也在此前與筆者的對話中多次強調(diào)類似的觀點,他曾指出,“速度,是智能體商業(yè)化應(yīng)用落地的第一要義。”在智能體商業(yè)化應(yīng)用落地過程中,交互速度是決定其能否在真實場景中發(fā)揮價值的首要因素。與傳統(tǒng)的“人機交互”不同,智能體時代的交互本質(zhì)是智能體之間的高頻博弈與協(xié)作,任何延遲都可能導(dǎo)致決策失效或機會錯失,token 吞吐速度已成為AI應(yīng)用構(gòu)建的“隱形計時器”。智能體的響應(yīng)速度不僅影響用戶體驗,更直接關(guān)聯(lián)商業(yè)產(chǎn)出的質(zhì)量與穩(wěn)定性。

此外,以典型API服務(wù)商為例,全球典型的大模型API服務(wù)商的DeepSeek 每token生成速度,基本維持在10至20 毫秒左右,而國內(nèi)的生成速度普遍高于30毫秒。要在這一基礎(chǔ)上進(jìn)一步實現(xiàn)更低延遲的token生成能力,就必然要求底層算力系統(tǒng)架構(gòu)、互聯(lián)協(xié)議等關(guān)鍵點上進(jìn)行創(chuàng)新。對此,劉軍表示,速度是實現(xiàn)智能體應(yīng)用效果的基礎(chǔ)保障,“在很多產(chǎn)業(yè)實踐中,浪潮信息看到有很多場景都有高時效性需求,智能體必須要在極短的時間內(nèi)完成原本由人執(zhí)行的任務(wù)。”

比如,股票交易、銀行轉(zhuǎn)賬風(fēng)險監(jiān)測等金融場景下,對于延時的要求往往需要小于10ms,而目前市面上絕大多數(shù)AI Agent服務(wù)的延時都在15ms以上,如果響應(yīng)過長,可能造成金融機構(gòu)或者其用戶的資產(chǎn)損失。

與算力需求同步激增的,是token消耗量的指數(shù)級增長,進(jìn)一步放大了應(yīng)用成本壓力。火山引擎披露的數(shù)據(jù)顯示,截至2025年12月,字節(jié)跳動旗下豆包大模型日均token使用量突破50萬億,較2024年同期增長超過10倍,相比2024年5月剛推出時的日均調(diào)用量增長達(dá)417倍;谷歌在2025年10月披露,其各平臺每月處理的token用量已達(dá)1300萬億,相當(dāng)于日均43.3萬億,而一年前月均僅為9.7萬億。

這種增長趨勢在企業(yè)級應(yīng)用中更為顯著,麥肯錫調(diào)研顯示,全球88%的企業(yè)已布局AI應(yīng)用,但僅有39%實現(xiàn)實質(zhì)性財務(wù)回報,成本高昂是導(dǎo)致這一差距的核心原因。以AI編程為例,當(dāng)前企業(yè)使用AI輔助編程的每月token消耗量相比1年前平均增長了約50倍,達(dá)到1000萬到5億token的量級。

而另一方面,占token成本80%的算力成本一直在以每年10倍的速度下降。黃仁勛在Vera Rubin發(fā)布會上說,摩爾定律的增長曲線已大幅放緩,無法跟上每年5倍的 token生成量增長,更無法跟上token成本每年高達(dá)10倍的激進(jìn)下降趨勢。

token的成本不僅體現(xiàn)在硬件設(shè)備支出上,還體現(xiàn)在算力底層的電力成本支出上。施耐德電氣預(yù)測,2026年AI數(shù)據(jù)中心單機柜功率密度將升至240kW,2028年將達(dá)到1MW,這意味著能源消耗將隨算力密度同步攀升。對于中小企業(yè)而言,這種成本壓力更為顯著,某制造企業(yè)的AI質(zhì)檢項目,初始硬件投入達(dá)800萬元,加上每年200萬元的運維與能源成本,投資回報周期長達(dá)5年,遠(yuǎn)超企業(yè)預(yù)期。

高昂的綜合成本讓企業(yè)級AI落地陷入“投入產(chǎn)出失衡”的困境。從直接的token成本來看,當(dāng)前主流大模型的商業(yè)化成本依然居高不下:以輸出百萬token為例,Claude、Grok等海外模型的價格普遍在10-15美元,國內(nèi)大模型雖然相對便宜,也多在10元以上。OpenAI的GPT-5在處理復(fù)雜任務(wù)時,輸入token成本為每百萬1.25美元,輸出token為每百萬10.00美元,這種成本結(jié)構(gòu)在需要高強度交互的企業(yè)級場景中,幾乎無法實現(xiàn)規(guī)模化盈利。IDC的調(diào)研數(shù)據(jù)顯示,AI推理產(chǎn)生的海量數(shù)據(jù)回傳至核心云,導(dǎo)致企業(yè)帶寬成本激增3-5倍,部分制造企業(yè)的AI算力集群年能耗成本已占其IT總支出的25%以上。

架構(gòu)失衡與資源錯配是“根因”

企業(yè)級AI算力成本高企的背后,并非單純的“算力不足”,還存在底層算力架構(gòu)與智能體時代的推理需求嚴(yán)重錯配,導(dǎo)致“高配低效”“資源閑置”等結(jié)構(gòu)性問題。

當(dāng)前全球大模型競賽已從“盲目堆算力”轉(zhuǎn)向“追求單位算力產(chǎn)出價值”的新階段,但80%以上的token成本依然來自算力支出,而阻礙成本下降的核心矛盾,在于推理負(fù)載與訓(xùn)練負(fù)載的本質(zhì)差異被忽視,沿用傳統(tǒng)訓(xùn)練架構(gòu)承載推理任務(wù),導(dǎo)致算力、顯存與網(wǎng)絡(luò)資源難以同時最優(yōu)配置,形成了多重效率瓶頸。

算力利用率(MFU)的嚴(yán)重倒掛,是成本高企的結(jié)構(gòu)性根源。在AI模型的全生命周期中,訓(xùn)練與推理的算力需求特征存在本質(zhì)差異:訓(xùn)練階段屬于“計算密集型”任務(wù),通過批量數(shù)據(jù)處理可實現(xiàn)較高的算力利用率,MFU(模型算力利用率)可達(dá)50%以上;而在推理階段,特別是對于追求低延遲的實時交互任務(wù),由于token的自回歸解碼特性,每一輪計算中,硬件必須加載全部的模型參數(shù),卻只為了計算一個token的輸出,導(dǎo)致昂貴的GPU大部分時間在等待數(shù)據(jù)搬運,實際MFU往往僅為5%-10%。

這種巨大的算力閑置現(xiàn)象在企業(yè)級場景中尤為突出,比如,某頭部制造企業(yè)的AI質(zhì)檢系統(tǒng)采用傳統(tǒng)算力架構(gòu),其GPU集群的平均MFU僅為7%,大量算力資源在等待數(shù)據(jù)傳輸?shù)倪^程中被浪費,直接導(dǎo)致單位檢測成本居高不下。

究其原因,傳統(tǒng)算力架構(gòu)的設(shè)計核心是滿足訓(xùn)練階段的批量計算需求,而智能體時代的核心需求是推理階段的實時交互,用訓(xùn)練架構(gòu)做推理,好比“殺雞用牛刀”,資源浪費不可避免。

與此同時,“存儲墻”瓶頸在推理場景下被持續(xù)放大,進(jìn)一步推高成本與延遲。在大模型推理過程中,隨著上下文長度的增加,用于存儲中間結(jié)果的KV Cache會呈指數(shù)級增長,這不僅占用了大量昂貴的顯存空間,還導(dǎo)致了嚴(yán)重的訪存密集問題。傳統(tǒng)架構(gòu)采用“存算分離”模式,數(shù)據(jù)需要在內(nèi)存與顯存之間頻繁遷移,不僅帶來了高額的數(shù)據(jù)遷移功耗,還顯著增加了延遲。為了緩解這一問題,企業(yè)不得不采用價格高昂的HBM(高帶寬內(nèi)存),進(jìn)一步提升了硬件采購成本。數(shù)據(jù)顯示,配備HBM的GPU單價較普通GPU高出2-3倍,而KV Cache占用的顯存空間可達(dá)模型本身的30%-50%,在超長上下文推理場景中,這一比例甚至超過70%。

另一方面,網(wǎng)絡(luò)通信與橫向擴展代價高昂,形成了算力規(guī)?;?ldquo;天花板”。當(dāng)企業(yè)級AI模型規(guī)模突破單機承載能力時,跨節(jié)點通信成為新的性能瓶頸。傳統(tǒng)的RoCE或InfiniBand網(wǎng)絡(luò)的延遲遠(yuǎn)高于芯片內(nèi)部的總線延遲,通信開銷可能占據(jù)總推理時間的30%以上,導(dǎo)致企業(yè)被迫通過堆砌更多資源來維持響應(yīng)速度,進(jìn)一步推高了總擁有成本(TCO)。在千卡級以上的大規(guī)模算力集群中,網(wǎng)絡(luò)設(shè)備的采購成本已占整體硬件支出的20%-30%,而通信過程中的能耗成本也不容忽視。

更嚴(yán)重的是,傳統(tǒng)網(wǎng)絡(luò)架構(gòu)的“擁塞與丟包”問題會導(dǎo)致算力資源的進(jìn)一步浪費:當(dāng)多個節(jié)點同時進(jìn)行數(shù)據(jù)傳輸時,網(wǎng)絡(luò)擁堵會導(dǎo)致部分?jǐn)?shù)據(jù)重傳,不僅增加了延遲,還占用了額外的算力與帶寬資源。中國軟件評測中心(CSTC)對20余家主流大模型服務(wù)提供商的綜合評估顯示,網(wǎng)絡(luò)通信延遲是導(dǎo)致國內(nèi)大模型token生成速度普遍高于30毫秒的核心原因之一,而全球主要大模型API服務(wù)商的token生成速度基本維持在10-20毫秒左右,網(wǎng)絡(luò)架構(gòu)的差距直接體現(xiàn)為商業(yè)競爭力的差異。

另一方面,軟硬協(xié)同也是決定算力效率高低與否的關(guān)鍵因素。當(dāng)前,多數(shù)企業(yè)的AI部署采用“通用硬件+通用軟件”的組合模式,未針對特定模型的計算特征與行業(yè)場景的需求進(jìn)行深度優(yōu)化,導(dǎo)致算力資源無法充分釋放。例如,不同行業(yè)的AI模型具有顯著的計算特征差異:金融領(lǐng)域的風(fēng)控模型以邏輯推理為主,對CPU算力需求較高;制造業(yè)的質(zhì)檢模型以圖像處理為主,對GPU的并行計算能力要求較高;而零售領(lǐng)域的推薦模型則需要兼顧數(shù)據(jù)處理與邏輯推理,對異構(gòu)算力的協(xié)同調(diào)度要求較高。

傳統(tǒng)的通用算力架構(gòu)無法精準(zhǔn)匹配這些差異化需求,導(dǎo)致部分資源過載、部分資源閑置。同時,軟件框架與硬件架構(gòu)的適配不足也會影響算力效率,例如,部分開源框架未針對本土AI芯片進(jìn)行優(yōu)化,導(dǎo)致芯片的核心性能無法充分發(fā)揮,進(jìn)一步降低了單位算力的產(chǎn)出價值。

AI算力破局之路在何方?

面對算力需求激增與成本高企的雙重挑戰(zhàn),企業(yè)級AI落地的破局關(guān)鍵不在于“盲目增加算力投入”,而在于通過算力架構(gòu)的根本性革新,實現(xiàn)“算力效率的數(shù)量級提升”與“成本的規(guī)?;档?rdquo;。

在“算效”方面,要實現(xiàn)更低延遲的token生成能力,必然要求底層算力基礎(chǔ)設(shè)施在系統(tǒng)架構(gòu)、互聯(lián)協(xié)議、軟件框架等關(guān)鍵點上進(jìn)行協(xié)同創(chuàng)新。Gartner預(yù)測,到2028年,超過40%的領(lǐng)先企業(yè)將采用融合CPU、GPU、AI ASIC、神經(jīng)形態(tài)計算等多種范式的混合計算架構(gòu),以應(yīng)對復(fù)雜的AI工作負(fù)載,這種架構(gòu)將實現(xiàn)性能、效率與創(chuàng)新的多重突破。

在系統(tǒng)架構(gòu)領(lǐng)域,需要推動算力架構(gòu)從“集中式”向“分布式協(xié)同”轉(zhuǎn)型,通過存算一體、算力網(wǎng)絡(luò)、邊緣計算等技術(shù)創(chuàng)新,破解“存儲墻”“網(wǎng)絡(luò)墻”等效率瓶頸。比如,針對此,天翼云就推出了“端網(wǎng)協(xié)同負(fù)載均衡方案”,通過自研集合通信庫CTCCL實現(xiàn)端側(cè)精準(zhǔn)控流,配合網(wǎng)側(cè)優(yōu)化,將AllReduce峰值帶寬提升40%,大模型訓(xùn)練效率提升7%,為架構(gòu)創(chuàng)新提供了實踐范例。

在軟件優(yōu)化領(lǐng)域,需要加強芯片與軟件的適配性優(yōu)化,開發(fā)針對性的操作系統(tǒng)、數(shù)據(jù)庫、AI框架等基礎(chǔ)軟件,提升全棧算力效率。

在成本方面,目前國內(nèi)一流水平已經(jīng)能將每百萬token的價錢降低到1元錢。但在劉軍看來,這還遠(yuǎn)遠(yuǎn)不夠,“未來,AI要真正成為如同‘水電煤’般的基礎(chǔ)資源,token成本必須在現(xiàn)有基礎(chǔ)上實現(xiàn)數(shù)量級跨越,成本能力將從‘核心競爭力’進(jìn)一步升級為‘生存入場券’,直接決定AI企業(yè)在智能體時代的生死存亡。”劉軍指出。

而通過算力產(chǎn)業(yè)頭部企業(yè)的實踐表明,圍繞推理場景的核心需求,重構(gòu)系統(tǒng)架構(gòu)、推動軟硬協(xié)同優(yōu)化、實現(xiàn)資源精準(zhǔn)匹配,是破解算力與成本困境的有效路徑。這種革新不僅能直接降低token成本與響應(yīng)延遲,更能重塑企業(yè)級AI的商業(yè)價值邏輯,推動行業(yè)從“規(guī)模導(dǎo)向”轉(zhuǎn)向“效率導(dǎo)向”。

架構(gòu)重構(gòu)是現(xiàn)階段突破算力效率瓶頸的核心抓手,其中心邏輯是“按需拆分、精準(zhǔn)適配”,讓不同計算模塊在不同硬件上高效協(xié)同。傳統(tǒng)架構(gòu)的設(shè)計思路是“大而全”,試圖用單一架構(gòu)承載所有計算任務(wù),而新的架構(gòu)設(shè)計思路則是“極簡與精準(zhǔn)”,圍繞降低token成本和提升響應(yīng)速度的核心目標(biāo),將推理流程拆解得更細(xì),支持PD分離、AF分離、KV并行、細(xì)粒度專家拆分等計算策略,讓不同計算模塊在不同卡上按需配置并發(fā),把每張卡的負(fù)載“打滿”,實現(xiàn)“卡時成本”最低、“卡時產(chǎn)出”最高。進(jìn)而,在架構(gòu)重構(gòu)的基礎(chǔ)上,進(jìn)行軟硬協(xié)同優(yōu)化。硬件層面的創(chuàng)新為效率提升提供了基礎(chǔ),而軟件層面的精準(zhǔn)適配則能充分釋放硬件潛力。

算力與成本的博弈,本質(zhì)上是技術(shù)創(chuàng)新與商業(yè)價值的平衡。在企業(yè)級AI規(guī)?;涞氐年P(guān)鍵階段,算力架構(gòu)的革新已成為突破成本瓶頸、提升商業(yè)價值的核心引擎。隨著架構(gòu)重構(gòu)、軟硬協(xié)同等技術(shù)的不斷成熟,以及產(chǎn)業(yè)生態(tài)的持續(xù)完善,算力成本將實現(xiàn)持續(xù)下降,響應(yīng)速度將不斷提升,這不僅將推動AI真正成為如同“水電煤”般的基礎(chǔ)資源,更將賦能千行百業(yè)的數(shù)字化轉(zhuǎn)型,開啟智能經(jīng)濟(jì)的全新篇章。

未來,企業(yè)級AI算力成本優(yōu)化將朝著“專用化、極致化、協(xié)同化”的方向發(fā)展。專用化意味著針對不同行業(yè)、不同場景的需求,開發(fā)定制化的算力架構(gòu)與軟硬件解決方案,實現(xiàn)算力資源的精準(zhǔn)匹配;極致化要求持續(xù)推動算力效率的提升,通過架構(gòu)創(chuàng)新、工藝進(jìn)步、算法優(yōu)化等多重手段,實現(xiàn)token成本的持續(xù)下降與響應(yīng)速度的不斷提升;協(xié)同化則需要構(gòu)建更加完善的產(chǎn)業(yè)生態(tài),實現(xiàn)芯片、軟件、模型、應(yīng)用等環(huán)節(jié)的深度協(xié)同,形成“算力-應(yīng)用-價值”的正向循環(huán)。(文|Leo張ToB雜談,作者|張申宇,編輯丨蓋虹達(dá))

本文系作者 Leo張ToB雜談 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

21:54

天普股份:收到上交所問詢函,涉及公司主營業(yè)務(wù)及高管任職資格等問題

21:43

馬斯克回應(yīng)爭議:未發(fā)現(xiàn)Grok生成未成年裸體圖像

21:37

波蘭央行將基準(zhǔn)利率維持在4.00%

21:37

花旗集團(tuán):2025年第四季度凈利潤24.71億美元,同比下降13%

21:36

美國11月零售銷售環(huán)比增長0.6%,超預(yù)期

21:34

新華百貨:目前不存在市場傳聞所述的向上市公司注入半導(dǎo)體等相關(guān)資產(chǎn)的事項

21:34

世運電路:公司為T客戶主要PCB供應(yīng)商

21:33

孩子王:已推出KidsGPT及多個AI智能營銷工具

21:32

美國11月PPI環(huán)比增長0.2%,符合預(yù)期

21:31

創(chuàng)造歷史,中國U23男足首進(jìn)亞洲杯淘汰賽

21:28

1月14日美股盤前要聞

21:24

歐佩克將2026年全球經(jīng)濟(jì)增長預(yù)期維持在3.1%

21:23

納爾股份:擬購買南通納爾33.55%股權(quán)并募集配套資金

21:23

*ST陽光:實際控制人將變更為劉丹,股票復(fù)牌

21:22

國家郵政局局長辦公會議:聚焦實現(xiàn)“兩促進(jìn)”“三提升”,服務(wù)縱深推進(jìn)全國統(tǒng)一大市場建設(shè)

21:17

OPEC維持2026年全球石油需求增長預(yù)測不變,每日增加138萬桶

21:16

AI熱潮驅(qū)動,2026年美國電價或持續(xù)上漲

21:15

ST柯利達(dá):實控人擬發(fā)生變更

21:14

滬錫期貨主力合約日內(nèi)漲超8%

21:10

容百科技:延期回復(fù)上交所問詢函,股票繼續(xù)停牌

掃描下載App