AI 行業(yè)的花錢、省錢邏輯正迎來大變化。

以往用昂貴專有模型的高成本模式正在被顛覆,低成本、高性價比的開源模型 + 專用軟硬件的組合有望成為主流。

英偉達(dá)日前發(fā)布全面分析,顯示其最新的 Blackwell GPU 平臺與開源推理模型的組合可使每 token 成本降低 4 到 10 倍。

該數(shù)據(jù)于 2026 年 2 月 13 日發(fā)布,強調(diào)行業(yè)正從昂貴的專有模型轉(zhuǎn)向由開源智能與專用硬件-軟件協(xié)同設(shè)計驅(qū)動的、更具成本效益且高性能的生態(tài)系統(tǒng)。這些成本降低是通過多層方法實現(xiàn)的,涵蓋 Blackwell GPU 架構(gòu)、原生低精度 NVFP4 數(shù)據(jù)格式,以及包括 TensorRT-LLM 和 Dynamo 推理框架在內(nèi)的優(yōu)化軟件庫。

英偉達(dá)表示,這些技術(shù)進(jìn)步使得 Baseten、DeepInfra、Fireworks AI 和 Together AI 等推理服務(wù)提供商能夠以遠(yuǎn)低于以往的成本提供前沿級智能。

例如,采用 NVFP4 格式時,每百萬 token 的成本從舊的 Hopper 平臺上的 20 美分降至 Blackwell 上的僅 5 美分——單就硬件成本而言就下降了 75%,還未計算切換到開源模型帶來的額外節(jié)省。

這一變化的現(xiàn)實影響已在多個高需求領(lǐng)域顯現(xiàn)。

在醫(yī)療領(lǐng)域,AI 初創(chuàng)公司 Sully.ai 報告稱,通過將業(yè)務(wù)從專有閉源模型遷移到由 Baseten 托管、基于 Blackwell 的開源替代方案,推理成本下降了 90%。這一 10 倍的成本降低伴隨著 65% 的響應(yīng)時間提升,使公司能更高效地自動化醫(yī)療編碼與文檔工作。

同樣在游戲領(lǐng)域,開發(fā)商 Latitude 利用 DeepInfra 的 Blackwell 基礎(chǔ)設(shè)施為其原生 AI 游戲 Voyage 保持低延遲響應(yīng)的同時,將 token 成本降低了 4 倍。這使得在流量高峰期間也能部署更復(fù)雜的模型而不影響玩家體驗。

從分析角度看,這一進(jìn)展標(biāo)志著許多企業(yè) AI 應(yīng)用的“專有溢價”時代的終結(jié)。

在過去兩年中,閉源模型的高成本成為許多初創(chuàng)公司進(jìn)入的障礙。然而,隨著開源模型與前沿專有系統(tǒng)達(dá)成性能上的可比,瓶頸已從模型智能轉(zhuǎn)向基礎(chǔ)設(shè)施效率。

英偉達(dá)的“極致協(xié)同設(shè)計”戰(zhàn)略——將硬件(Blackwell)、數(shù)據(jù)格式(NVFP4)和軟件(TensorRT)同步開發(fā)——正在打造一道競爭護(hù)城河,使得使用通用硬件的云服務(wù)提供商難以在每 token 成本上競爭。

這種 10 倍的成本降低對所謂的“代理式”工作流尤為關(guān)鍵,在此類場景中,單個用戶查詢可能觸發(fā)數(shù)十個后臺自主交互。開發(fā)開源推理系統(tǒng)的 Sentient Labs 報告稱,在病毒式發(fā)布期間,使用基于 Blackwell 的 Fireworks AI 提供了處理單周 560 萬次查詢所需的吞吐量。

若無這些效率提升,多代理系統(tǒng)的基礎(chǔ)設(shè)施開銷對大多數(shù)開發(fā)者而言在經(jīng)濟上無法支撐。此外,在客戶服務(wù)方面,Decagon 在語音 AI 上實現(xiàn)了低于 400 毫秒的響應(yīng)時間,與專有模型相比,每次查詢成本降低了 6 倍。這種性能水平對 24/7 的語音部署至關(guān)重要,因為延遲直接影響用戶信任。

展望未來,token 成本下降的趨勢預(yù)計將加速。

英偉達(dá)的路線圖顯示,即將推出的 Rubin 平臺將目標(biāo)是在 Blackwell 基礎(chǔ)上再實現(xiàn) 性能與成本效率 10 倍的提升。

隨著 token 經(jīng)濟學(xué)的持續(xù)改善,我們很可能看到從“把 AI 當(dāng)作一個功能”向“把 AI 作為基礎(chǔ)設(shè)施”的轉(zhuǎn)變,智能成本在運營預(yù)算中將變得微不足道。

這很可能導(dǎo)致高頻 AI 應(yīng)用的激增,例如實時視頻翻譯和自主工業(yè)機器人等領(lǐng)域,這些此前因過高的推理開銷而被排除在外。(本文首發(fā)鈦媒體App , 作者|AGI-Signal,編輯|秦聰慧) 

作品聲明:內(nèi)容由AI生成
本文系作者 硅谷Tech news 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-02-15 23:02

分析師:AI風(fēng)險主導(dǎo)市場,投資者拋售相關(guān)股票

2026-02-15 22:18

國美控股退出廈門金美信消費金融

2026-02-15 21:49

春節(jié)假期首日,北京市屬公園接待游客20.95萬人次

2026-02-15 21:43

聯(lián)合國秘書長贊賞中國對非洲國家零關(guān)稅舉措

2026-02-15 21:13

2026春節(jié)檔總票房破4億

2026-02-15 21:07

國投白銀LOF出臺補償方案,1000元以下?lián)p失全額補償

2026-02-15 20:37

國鐵集團:網(wǎng)傳今年春運綠皮車嚴(yán)重超員視頻系歷史畫面拼湊

2026-02-15 20:25

新型肽類化合物或可干預(yù)癲癇反復(fù)發(fā)作

2026-02-15 20:00

2月15日新聞聯(lián)播速覽16條

2026-02-15 19:56

國際雪聯(lián)回應(yīng):未削減谷愛凌訓(xùn)練次數(shù),她已獲得額外測試訓(xùn)練邀請

2026-02-15 19:54

特斯拉正式停售FSD買斷版,全面轉(zhuǎn)向訂閱制

2026-02-15 19:37

黑龍江:打造“人工智能+”數(shù)據(jù)共享新場景

2026-02-15 19:29

偉能集團:法院已就清盤呈請授出認(rèn)可令

2026-02-15 19:28

百勝中國:授出股權(quán)激勵及以股權(quán)形式授予董事任職報酬

2026-02-15 18:48

微信支付零花錢功能支持兒童手表收紅包,日限額1000元

2026-02-15 18:29

陳茂波:春節(jié)假期訪港內(nèi)地旅客預(yù)計達(dá)143萬人次

2026-02-15 18:04

外交部:自2026年2月17日起,對加拿大、英國持普通護(hù)照人員實施免簽政策

2026-02-15 17:32

貴州2026年首趟中歐班列啟程

2026-02-15 17:21

倫敦多所學(xué)校暴發(fā)“快速傳播”麻疹疫情,已致數(shù)十人感染

2026-02-15 16:50

加拿大正式加入“歐洲安全行動”計劃

掃描下載App