AI 行業(yè)的花錢、省錢邏輯正迎來大變化。
以往用昂貴專有模型的高成本模式正在被顛覆,低成本、高性價比的開源模型 + 專用軟硬件的組合有望成為主流。
英偉達(dá)日前發(fā)布全面分析,顯示其最新的 Blackwell GPU 平臺與開源推理模型的組合可使每 token 成本降低 4 到 10 倍。
該數(shù)據(jù)于 2026 年 2 月 13 日發(fā)布,強調(diào)行業(yè)正從昂貴的專有模型轉(zhuǎn)向由開源智能與專用硬件-軟件協(xié)同設(shè)計驅(qū)動的、更具成本效益且高性能的生態(tài)系統(tǒng)。這些成本降低是通過多層方法實現(xiàn)的,涵蓋 Blackwell GPU 架構(gòu)、原生低精度 NVFP4 數(shù)據(jù)格式,以及包括 TensorRT-LLM 和 Dynamo 推理框架在內(nèi)的優(yōu)化軟件庫。
英偉達(dá)表示,這些技術(shù)進(jìn)步使得 Baseten、DeepInfra、Fireworks AI 和 Together AI 等推理服務(wù)提供商能夠以遠(yuǎn)低于以往的成本提供前沿級智能。
例如,采用 NVFP4 格式時,每百萬 token 的成本從舊的 Hopper 平臺上的 20 美分降至 Blackwell 上的僅 5 美分——單就硬件成本而言就下降了 75%,還未計算切換到開源模型帶來的額外節(jié)省。
這一變化的現(xiàn)實影響已在多個高需求領(lǐng)域顯現(xiàn)。
在醫(yī)療領(lǐng)域,AI 初創(chuàng)公司 Sully.ai 報告稱,通過將業(yè)務(wù)從專有閉源模型遷移到由 Baseten 托管、基于 Blackwell 的開源替代方案,推理成本下降了 90%。這一 10 倍的成本降低伴隨著 65% 的響應(yīng)時間提升,使公司能更高效地自動化醫(yī)療編碼與文檔工作。
同樣在游戲領(lǐng)域,開發(fā)商 Latitude 利用 DeepInfra 的 Blackwell 基礎(chǔ)設(shè)施為其原生 AI 游戲 Voyage 保持低延遲響應(yīng)的同時,將 token 成本降低了 4 倍。這使得在流量高峰期間也能部署更復(fù)雜的模型而不影響玩家體驗。
從分析角度看,這一進(jìn)展標(biāo)志著許多企業(yè) AI 應(yīng)用的“專有溢價”時代的終結(jié)。
在過去兩年中,閉源模型的高成本成為許多初創(chuàng)公司進(jìn)入的障礙。然而,隨著開源模型與前沿專有系統(tǒng)達(dá)成性能上的可比,瓶頸已從模型智能轉(zhuǎn)向基礎(chǔ)設(shè)施效率。
英偉達(dá)的“極致協(xié)同設(shè)計”戰(zhàn)略——將硬件(Blackwell)、數(shù)據(jù)格式(NVFP4)和軟件(TensorRT)同步開發(fā)——正在打造一道競爭護(hù)城河,使得使用通用硬件的云服務(wù)提供商難以在每 token 成本上競爭。
這種 10 倍的成本降低對所謂的“代理式”工作流尤為關(guān)鍵,在此類場景中,單個用戶查詢可能觸發(fā)數(shù)十個后臺自主交互。開發(fā)開源推理系統(tǒng)的 Sentient Labs 報告稱,在病毒式發(fā)布期間,使用基于 Blackwell 的 Fireworks AI 提供了處理單周 560 萬次查詢所需的吞吐量。
若無這些效率提升,多代理系統(tǒng)的基礎(chǔ)設(shè)施開銷對大多數(shù)開發(fā)者而言在經(jīng)濟上無法支撐。此外,在客戶服務(wù)方面,Decagon 在語音 AI 上實現(xiàn)了低于 400 毫秒的響應(yīng)時間,與專有模型相比,每次查詢成本降低了 6 倍。這種性能水平對 24/7 的語音部署至關(guān)重要,因為延遲直接影響用戶信任。
展望未來,token 成本下降的趨勢預(yù)計將加速。
英偉達(dá)的路線圖顯示,即將推出的 Rubin 平臺將目標(biāo)是在 Blackwell 基礎(chǔ)上再實現(xiàn) 性能與成本效率 10 倍的提升。
隨著 token 經(jīng)濟學(xué)的持續(xù)改善,我們很可能看到從“把 AI 當(dāng)作一個功能”向“把 AI 作為基礎(chǔ)設(shè)施”的轉(zhuǎn)變,智能成本在運營預(yù)算中將變得微不足道。
這很可能導(dǎo)致高頻 AI 應(yīng)用的激增,例如實時視頻翻譯和自主工業(yè)機器人等領(lǐng)域,這些此前因過高的推理開銷而被排除在外。(本文首發(fā)鈦媒體App , 作者|AGI-Signal,編輯|秦聰慧)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論