美東時間3月24日,谷歌研究院(Google Research)發(fā)布了一項名為TurboQuant的免訓(xùn)練(training-free)AI內(nèi)存壓縮算法。
官方技術(shù)文件顯示,該算法能夠在不損失模型精度的前提下,將大語言模型推理階段的鍵值緩存(KV Cache)內(nèi)存占用縮減至少6倍,并在特定基準(zhǔn)測試中相較32位未量化模型實現(xiàn)最高8倍的性能提升。這項極度壓縮技術(shù),直接改變了大型AI模型在顯存資源調(diào)配上的技術(shù)預(yù)期。
技術(shù)發(fā)布的連鎖反應(yīng)迅速傳導(dǎo)至資本市場。周三美股交易時段,存儲芯片板塊出現(xiàn)整體下挫,閃迪一度大跌6.5%,美光科技跌幅約4%,希捷科技跌超5%。
市場情緒的短期波動主要源于單一維度的推演:若底層算法能將上下文內(nèi)存需求大幅縮減,現(xiàn)階段價格高昂且供不應(yīng)求的高帶寬內(nèi)存(HBM)及企業(yè)級存儲芯片的長期出貨量預(yù)期可能會面臨修正。
TurboQuant的核心突破在于解決了傳統(tǒng)向量量化過程中伴隨的內(nèi)存額外開銷問題。傳統(tǒng)方案為了保證精度,往往需要為每個數(shù)據(jù)塊額外存儲全精度的量化常數(shù)。該算法采取了兩階段處理架構(gòu):
首先,利用PolarQuant技術(shù)進行主體壓縮。該方法放棄了傳統(tǒng)的笛卡爾坐標(biāo)系,將數(shù)據(jù)向量轉(zhuǎn)換為極坐標(biāo),把數(shù)據(jù)分離為代表強度的半徑和代表方向的角度。這種幾何結(jié)構(gòu)的簡化徹底消除了傳統(tǒng)方法的額外內(nèi)存開銷。
![]()
隨后,引入量化約翰遜-林登施特勞斯(QJL)算法作為數(shù)學(xué)誤差校正層。TurboQuant使用極低位寬(僅1 bit)對第一階段留下的微小誤差套用QJL算法,消除偏差以確保最終注意力分?jǐn)?shù)的精準(zhǔn)。
測試數(shù)據(jù)顯示,在此機制下,TurboQuant能夠?qū)V緩存壓縮至3.5比特甚至3比特,在“大海撈針”(Needle In A Haystack)等長文本基準(zhǔn)測試中,依然保持了100%的檢索召回率。同時,其“數(shù)據(jù)無感知”(data-oblivious)特性使其無需進行特定的預(yù)處理或微調(diào)即可直接部署。
在評估該算法的實際商業(yè)穿透力時,需剝離理論數(shù)據(jù)的極限值。一方面,谷歌聲稱的“最高8倍性能提升”是建立在與未量化的32位(32-bit)基礎(chǔ)數(shù)據(jù)相對比的前提下。而在當(dāng)前實際的推理產(chǎn)業(yè)環(huán)境中,16位乃至8位、4位量化已廣泛普及,生產(chǎn)環(huán)境中的絕對效率躍升幅度將低于官方的基準(zhǔn)對比數(shù)據(jù)。
另一方面,算法的作用域具有嚴(yán)格限定。TurboQuant僅針對推理階段的KV緩存生效,它有效緩解了超長上下文帶來的顯存線性增長問題,但并不壓縮模型權(quán)重(Model Weights)本身的物理顯存占用。這意味著,該算法能讓同等顯存容量的GPU支撐更長的上下文對話或更高的并發(fā)吞吐量,但依然無法改變部署千億參數(shù)大模型時對底層硬件容量的基本門檻。
從行業(yè)視角來看,單次查詢的內(nèi)存開銷與推理成本大幅下降,使得邊緣側(cè)設(shè)備或消費級顯卡能夠承載此前僅限云端運行的長文本任務(wù)。這種軟件優(yōu)化對硬件依賴的對沖,重新定義了AI應(yīng)用落地的成本曲線。
從宏觀算力供需關(guān)系推演,這也可能引發(fā)典型的“杰文斯悖論”(Jevons Paradox):
資源利用效率的提升,反而會因使用成本的降低而激發(fā)更龐大的長尾應(yīng)用需求。
TurboQuant降低了長文本推理的存儲門檻,可能刺激AI多模態(tài)應(yīng)用在企業(yè)端和消費端的規(guī)?;侀_。系統(tǒng)并發(fā)量的急劇上升,最終帶來的全球算力基礎(chǔ)設(shè)施與存儲需求總量,未必會呈現(xiàn)單邊縮減。(本文首發(fā)鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 焦燕)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論