“只有讓智能生成像水電一樣被穩(wěn)定地調(diào)度與供給,才能真正迎來算力制造Token為王的普惠智能時(shí)代?!敝袊こ淘涸菏俊②吘晨萍际紫茖W(xué)顧問鄭緯民在“全棧智能 全域推理:Token爆發(fā)元年的全場(chǎng)景大規(guī)模推理服務(wù)”專題研討會(huì)上說道。
鄭緯民在演講中指出,隨著智能體、AI Coding(編程)等應(yīng)用的爆發(fā)式增長,Token消耗量呈百倍、千倍級(jí)躍升,2026年已成為名副其實(shí)的“Token爆發(fā)元年”。AI產(chǎn)業(yè)的核心關(guān)注焦點(diǎn),正從“模型參數(shù)規(guī)模、模型可用性”全面轉(zhuǎn)向“穩(wěn)定、低成本、高質(zhì)量交付的Token產(chǎn)能”。
“未來的智能基礎(chǔ)設(shè)施應(yīng)圍繞‘Token即服務(wù)(TaaS,Token as a Service)’進(jìn)行重構(gòu)”。鄭緯民說,傳統(tǒng)模型服務(wù)的核心是保障模型可得性與接口完整性,而Token服務(wù)的核心是保障Token產(chǎn)能的可用性,更關(guān)注成本、吞吐、延遲與可靠性等生產(chǎn)性指標(biāo),是一個(gè)極端復(fù)雜的多維系統(tǒng)最優(yōu)化問題,必須完成全鏈路的系統(tǒng)級(jí)創(chuàng)新。
對(duì)此,鄭緯民提出了TaaS發(fā)展的三大核心技術(shù)底座:一是全系統(tǒng)異構(gòu)協(xié)同,通過將不同計(jì)算任務(wù)合理分配至GPU、CPU、內(nèi)存和SSD,打破算力瓶頸;二是存算協(xié)同實(shí)現(xiàn)“以存換算”,通過前置KV Cache等技術(shù),大幅降低重復(fù)計(jì)算量,提升推理效率;三是面向SLO的智能調(diào)度,精準(zhǔn)地將用戶業(yè)務(wù)需求“翻譯”為底層資源決策。
當(dāng)日,趨境ATaaS高效能AI Token生產(chǎn)服務(wù)平臺(tái)在會(huì)上發(fā)布。針對(duì)當(dāng)前大模型推理服務(wù)中普遍存在的硬件資源閑置、軟件適配滯后、算力配置粗放、架構(gòu)演進(jìn)失衡四大核心難題,該平臺(tái)將有效破解大額硬件投入難以轉(zhuǎn)化為優(yōu)質(zhì) Token 產(chǎn)能、資源浪費(fèi)與成本空耗突出的行業(yè)困境,以高效能Token生產(chǎn)為核心目標(biāo),可支撐萬級(jí)別AI推理需求,并達(dá)到日均萬億級(jí)別Token整體產(chǎn)能。







快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論