文| 深流研究所,作者 | 絳楓
站在GTC 2026 的主舞臺(tái)上,黃仁勛拋出了一句幾乎可以定義這輪AI產(chǎn)業(yè)變化的論斷——“推理的拐點(diǎn)已經(jīng)到來(lái)。”
他隨即給出了一組更有分量的數(shù)字:過(guò)去兩年,AI 推理的計(jì)算量增長(zhǎng)了約一萬(wàn)倍,使用量增長(zhǎng)了約一百倍。Openclaw 在全球范圍內(nèi)的爆發(fā),又進(jìn)一步放大了這一趨勢(shì)。
當(dāng) AI 從聊天框走進(jìn)真實(shí)工作流,開(kāi)始自主拆解、規(guī)劃、執(zhí)行任務(wù)。推理就從一次回答,變成持續(xù)消耗、持續(xù)結(jié)算、持續(xù)優(yōu)化的生產(chǎn)過(guò)程。
過(guò)去,衡量模型輸出長(zhǎng)度、上下文容量的單位token ,也變成了 AI 產(chǎn)業(yè)鏈真正的流通單位。英偉達(dá)在為 token 高效吞吐設(shè)計(jì)芯片和軟件棧,阿里在為 Token 組織業(yè)務(wù)和定價(jià)邏輯,OpenAI 在為“如何少花 token 完成更多思考”重做系統(tǒng)。
更深層的變化還在發(fā)生。AI 產(chǎn)業(yè)已經(jīng)不再只是基于“更強(qiáng)的模型”展開(kāi),而是圍繞“更高效的推理”重構(gòu)。
推理成為芯片性能的新錨點(diǎn)
英偉達(dá)的動(dòng)作便是有力佐證。GTC 2026 上讓行業(yè)震動(dòng)的,不是又一款更強(qiáng)的訓(xùn)練 GPU,而是兩個(gè)專(zhuān)門(mén)針對(duì)推理的產(chǎn)品。
Groq 3 LPU——英偉達(dá)通過(guò)技術(shù)許可協(xié)議引入 Groq 推理技術(shù)后推出的語(yǔ)言處理專(zhuān)用芯片。注意,這不是 GPU。LPU 的核心設(shè)計(jì)取舍是:犧牲訓(xùn)練性能,換取推理場(chǎng)景下的極致吞吐和極低延遲。單芯片擁有 500saMB 片上 SRAM,內(nèi)存帶寬 150TB/s,專(zhuān)攻 token 生成環(huán)節(jié)。與 Vera Rubin GPU 協(xié)同,將推理吞吐量從當(dāng)下的每秒 100 token 推向 1500+——一個(gè)數(shù)量級(jí)的提升。
Vera Rubin 平臺(tái)——臺(tái)積電 3nm 制程,推理性能較上一代 Blackwell 提升 5 倍,訓(xùn)練性能提升 3.5 倍。注意優(yōu)先級(jí):推理提升幅度遠(yuǎn)超訓(xùn)練。配套發(fā)布的 Dynamo 開(kāi)源推理框架,通過(guò)分離式推理、KV-Cache 智能路由等技術(shù),在大規(guī)模集群上可使 DeepSeek-R1 等模型的吞吐量提升 30 倍以上。
一家以訓(xùn)練芯片起家的公司,把最重磅的發(fā)布留給了“推理”。方向已經(jīng)很清楚了。
模型追求用更少的 Token,做更難的事
模型研發(fā)的方向同樣指向推理效率。
去年底,DeepSeek V3.2 是一個(gè)標(biāo)志性節(jié)點(diǎn)——這是該公司旗下首個(gè)將"思考"融入工具調(diào)用的開(kāi)源模型,Agent 基準(zhǔn)測(cè)試成績(jī)最高。官方明確表示,V3.2 的核心設(shè)計(jì)目標(biāo)是"平衡推理能力與輸出長(zhǎng)度",也就是用更少的 Token,完成更復(fù)雜的推理。
梁文鋒近半年署名的兩篇論文,一篇做"條件記憶",一篇優(yōu)化底層架構(gòu),都在解決同一個(gè)瓶頸:Transformer 在記憶、穩(wěn)定性和長(zhǎng)上下文上的局限——而這些,恰恰是 Agent 場(chǎng)景下推理效率的核心卡點(diǎn)。據(jù)多方消息,即將于 4 月發(fā)布的 V4,核心突破方向包括長(zhǎng)期記憶和多模態(tài)。技術(shù)路線始終指向同一個(gè)問(wèn)題:如何讓模型在 Agent 場(chǎng)景下更高效地"思考"。
OpenAI 的路徑類(lèi)似但更激進(jìn)。其在GPT-5系列之后,最核心的升級(jí)不是參數(shù)堆疊,而是將快速響應(yīng)、深度推理和實(shí)時(shí)路由器整合進(jìn)一個(gè)統(tǒng)一系統(tǒng)——根據(jù)任務(wù)復(fù)雜度,自動(dòng)決定"花多少 Token 來(lái)思考"。簡(jiǎn)單問(wèn)題淺層推理,復(fù)雜問(wèn)題深層推理鏈。這背后是對(duì)推理成本的精算,也是對(duì) Agent 大規(guī)模部署的提前布局。
電有瓦特,數(shù)據(jù)有比特,AI有TokeAI時(shí)代
訓(xùn)練時(shí)代的云服務(wù)模式簡(jiǎn)單——按 GPU 小時(shí)計(jì)費(fèi),本質(zhì)是"租設(shè)備"。
推理時(shí)代完全不同。一個(gè)部署在全球的 Agent 服務(wù),調(diào)用量可能在工作時(shí)段飆升十倍,凌晨又跌至谷底。這種極端的波動(dòng)性催生了全新的計(jì)價(jià)方式:按 Token 計(jì)費(fèi)、按請(qǐng)求計(jì)費(fèi)、甚至按"Agent 任務(wù)"計(jì)費(fèi)。
阿里巴巴的動(dòng)作最具信號(hào)意義。GTC 2026 開(kāi)幕同日,阿里宣布成立 Alibaba Token Hub(ATH)事業(yè)群,由集團(tuán) CEO 吳泳銘直接掛帥,平行于阿里云和電商事業(yè)群。旗下囊括通義實(shí)驗(yàn)室、千問(wèn)、悟空等核心 AI 業(yè)務(wù),組織目標(biāo)被提煉為三句話:創(chuàng)造 Token、輸送 Token、應(yīng)用 Token。
這是一個(gè)清晰的判斷:Token 將扮演類(lèi)似電力在工業(yè)時(shí)代的角色——基礎(chǔ)性的、持續(xù)消耗的、可以被計(jì)量和交易的資源。 云服務(wù)的競(jìng)爭(zhēng),正在從"誰(shuí)的 GPU 多"變成"誰(shuí)的 Token 更便宜、更快、更穩(wěn)"。
編排智能體的能力,成為新的應(yīng)用護(hù)城河
Token 經(jīng)濟(jì)學(xué)不僅改變了基礎(chǔ)設(shè)施,也在重塑應(yīng)用開(kāi)發(fā)的底層邏輯。
最顯著的變化是推理路由的普及。簡(jiǎn)單交互交給低成本小模型,復(fù)雜推理流轉(zhuǎn)至大模型——開(kāi)發(fā)者不再只是"調(diào)一個(gè) API",而是要設(shè)計(jì)一套精密的路由策略,在成本和效果之間找到最優(yōu)解。OpenRouter 這類(lèi)模型路由平臺(tái)的崛起,正是這一趨勢(shì)的產(chǎn)物。
更深層的變化在于:一個(gè)好的 Agent 應(yīng)用,本質(zhì)上是一套智能體編排系統(tǒng)。它決定哪些任務(wù)用什么模型、交給哪些 Agent、走什么路徑、在哪個(gè)節(jié)點(diǎn)做決策。編排能力本身,正在成為這一輪競(jìng)爭(zhēng)中最核心的壁壘。
這個(gè)邏輯已經(jīng)在產(chǎn)品層面落地。Anthropic 公開(kāi)的多智能體架構(gòu)中,一個(gè) Claude Opus 4 擔(dān)任"主管",多個(gè) Claude Sonnet 4 充當(dāng)"執(zhí)行者",系統(tǒng)性能比單用 Opus 4 高出 90%。微軟 Copilot Studio、Salesforce Agentforce 也在押注同一件事——讓企業(yè)用戶(hù)自己編排智能體工作流。
騰訊最新財(cái)報(bào)會(huì)上,馬化騰也表達(dá)了類(lèi)似判斷:AI的入口不應(yīng)該只是聊天機(jī)器人,未來(lái)每個(gè)小程序都可以智能化改造,通過(guò)API完成調(diào)用——本質(zhì)上,是把產(chǎn)品矩陣變成一張可編排的智能體網(wǎng)絡(luò)。
過(guò)去三年,AI 行業(yè)爭(zhēng)奪的是“誰(shuí)能訓(xùn)練出更強(qiáng)的模型”,接下來(lái)競(jìng)爭(zhēng)的核心,更可能變成:誰(shuí)能把推理做得更便宜、更快、更可控。
芯片在為 token 吞吐重寫(xiě)架構(gòu),模型在為更少 token 完成更復(fù)雜任務(wù)重做系統(tǒng),云廠商開(kāi)始直接經(jīng)營(yíng) token,應(yīng)用層則把勝負(fù)手押在智能體編排。
推理,不再只是模型輸出前的最后一步,而是正在成為整個(gè) AI 產(chǎn)業(yè)的新定價(jià)單位。







快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論