圖片來(lái)自AI生成
“現(xiàn)在誰(shuí)喊AI Native(AI原生)數(shù)據(jù)庫(kù),誰(shuí)就是‘大躍進(jìn)’。” 阿里云資深副總裁、數(shù)據(jù)庫(kù)產(chǎn)品事業(yè)部負(fù)責(zé)人李飛飛如此表示。
AI浪潮正以前所未有的力度,重塑數(shù)據(jù)庫(kù)。過(guò)去數(shù)據(jù)庫(kù)的核心任務(wù)是存得住、查得快、事務(wù)不出錯(cuò),大模型到來(lái)之后,企業(yè)亟需一個(gè)能統(tǒng)一處理多模態(tài)數(shù)據(jù),并能與大模型高效協(xié)同的新型數(shù)據(jù)基礎(chǔ)設(shè)施,這個(gè)有著數(shù)十年歷史的基礎(chǔ)軟件市場(chǎng),正在被大模型悄然改變。
云廠商的主流做法是,在其云原生數(shù)據(jù)庫(kù)底座上,快速集成向量檢索、模型調(diào)用等AI能力,強(qiáng)調(diào)平滑升級(jí)、成本優(yōu)勢(shì)和對(duì)海量現(xiàn)有客戶的延續(xù)性。而新興勢(shì)力則更傾向于講述原生AI的故事,主張為AI工作負(fù)載從頭設(shè)計(jì)存儲(chǔ)、查詢與計(jì)算架構(gòu),以獲取極致的性能與靈活性。
這種對(duì)比頗有些類似AI芯片行業(yè)數(shù)年前的故事,AI芯片創(chuàng)業(yè)企業(yè)試圖實(shí)現(xiàn)打造專用芯片,以實(shí)現(xiàn)更高的性能和更好的性價(jià)比,挑戰(zhàn)英偉達(dá)。但是,大模型的快速演進(jìn)使得那些定向優(yōu)化失效,反而是更具備通用性的英偉達(dá)GPU,持續(xù)保持市場(chǎng)統(tǒng)治力。
![]()
李飛飛直言,“今天有些數(shù)據(jù)庫(kù)廠商已經(jīng)喊出AI Native(AI原生)數(shù)據(jù)庫(kù),我們還是實(shí)事求是,不想那么喊,因?yàn)锳I賽道本身還在快速演進(jìn),我不認(rèn)為現(xiàn)在任何人做到了所謂的AI Native。”
什么才算是真正的AI Native(AI原生)數(shù)據(jù)庫(kù),李飛飛提出了自己判斷 AI 原生數(shù)據(jù)庫(kù)的兩項(xiàng)標(biāo)準(zhǔn):超一半的數(shù)據(jù)庫(kù)實(shí)例由 AI Agent(智能體)直接驅(qū)動(dòng)使用;超一半的數(shù)據(jù)庫(kù)輸出是Token。當(dāng)前尚屬于向AI原生數(shù)據(jù)庫(kù)演進(jìn)的過(guò)渡階段。
“未來(lái)一段時(shí)間,人工智能行業(yè)的瓶頸可能不再是算力,而是數(shù)據(jù)和存儲(chǔ)。”李飛飛表示,在人工智能向超級(jí)智能(ASI)演進(jìn)的路徑上,經(jīng)典的“內(nèi)存墻”問(wèn)題以新的形式回歸,近期DRAM等存儲(chǔ)硬件價(jià)格大幅上漲,正是這一趨勢(shì)的體現(xiàn)。
存儲(chǔ)漲價(jià)是行業(yè)變革的一個(gè)縮影,真正的推力是由大模型掀起的、重塑整個(gè)產(chǎn)業(yè)鏈的合力。AI時(shí)代的數(shù)據(jù)是文本、圖片、音頻、視頻、向量、圖結(jié)構(gòu)等,傳統(tǒng)數(shù)據(jù)庫(kù)只擅長(zhǎng)前兩種的一小部分,現(xiàn)在要同時(shí)處理結(jié)構(gòu)化 + 半結(jié)構(gòu)化 + 非結(jié)構(gòu)化 + 向量化表達(dá),數(shù)據(jù)庫(kù)向多模態(tài)的融合數(shù)據(jù)庫(kù)演進(jìn)。
李飛飛認(rèn)為,從學(xué)習(xí)人、輔助人到自我迭代超越人,大模型正在吞噬一切冷數(shù)據(jù)和溫?cái)?shù)據(jù),將其壓縮為模型參數(shù)。然而,企業(yè)業(yè)務(wù)系統(tǒng)中實(shí)時(shí)產(chǎn)生的“熱數(shù)據(jù)”(Hot Data),因其動(dòng)態(tài)變化、高頻更新的特性,短期內(nèi)無(wú)法被大模型完全內(nèi)化。
“熱數(shù)據(jù)才是維持智能引擎運(yùn)轉(zhuǎn)的高價(jià)值燃料。”李飛飛強(qiáng)調(diào),將高質(zhì)量、實(shí)時(shí)的私域熱數(shù)據(jù),與通用的、具備強(qiáng)大認(rèn)知能力的大模型有機(jī)結(jié)合,是實(shí)現(xiàn)“輔助人”到“超越人”的關(guān)鍵。而最佳的化學(xué)反應(yīng)發(fā)生地,正是數(shù)據(jù)庫(kù)內(nèi)部。
為此,阿里云在過(guò)去兩年將PolarDB從一個(gè)云原生數(shù)據(jù)庫(kù),快速演進(jìn)為一個(gè) “AI就緒的云原生數(shù)據(jù)庫(kù)”。其核心理念是:將大模型能力嵌入數(shù)據(jù)庫(kù),讓智能交互在數(shù)據(jù)實(shí)時(shí)產(chǎn)生的地方發(fā)生,數(shù)據(jù)不必來(lái)回搬運(yùn),也更好地保障了數(shù)據(jù)主權(quán)與隱私安全。
和過(guò)去不同的是,數(shù)據(jù)庫(kù)廠商要同時(shí)懂?dāng)?shù)據(jù)和模型。傳統(tǒng)數(shù)據(jù)庫(kù)團(tuán)隊(duì)強(qiáng)在系統(tǒng)工程,AI 團(tuán)隊(duì)強(qiáng)在模型算法,但 AI 時(shí)代的數(shù)據(jù)庫(kù),需要兩者深度融合,這不是加幾個(gè)向量索引就能完成改造,而是架構(gòu)層面的改變,為此阿里云也很早和百煉團(tuán)隊(duì)合作,但是一年前,當(dāng)李飛飛宣布打通百煉時(shí),外界還有疑問(wèn),并不完全理解阿里云的意圖。
“現(xiàn)在回頭看,絕對(duì)是輕舟已過(guò)萬(wàn)重山。在過(guò)去的短短幾個(gè)月內(nèi),通過(guò)阿里云瑤池?cái)?shù)據(jù)庫(kù)產(chǎn)品體系(包括云原生數(shù)據(jù)庫(kù)PolarDB、云原生數(shù)據(jù)倉(cāng)庫(kù)AnalyticDB、云數(shù)據(jù)庫(kù)RDS等)調(diào)用百煉、PAI及內(nèi)置模型算子服務(wù)所消耗的Token量,增長(zhǎng)了超過(guò)100倍。”李飛飛說(shuō)。
一位數(shù)據(jù)庫(kù)產(chǎn)品負(fù)責(zé)人對(duì)筆者表示,業(yè)界對(duì) “AI 原生” 的理解確實(shí)存在差異。“有的認(rèn)為深度集成向量計(jì)算和模型調(diào)用就是原生,有的則認(rèn)為需要從存儲(chǔ)引擎到查詢優(yōu)化器為 AI 工作負(fù)載徹底重寫(xiě)。”
另一位行業(yè)分析師則認(rèn)為,定義權(quán)之爭(zhēng)的背后是技術(shù)路線與市場(chǎng)卡位的雙重博弈。“原生“這個(gè)詞本身就意味著代際優(yōu)勢(shì)和市場(chǎng)洗牌的機(jī)會(huì)。沒(méi)有廠商愿意在此時(shí)落后于敘事。
李飛飛表示,AI原生數(shù)據(jù)庫(kù)是技術(shù)演進(jìn)的必然方向。從云原生到AI就緒、再到AI原生,現(xiàn)階段阿里云PolarDB正在打造AI就緒的云原生數(shù)據(jù)庫(kù)。
從云原生到“AI就緒”,阿里云提出了一個(gè)“4+1”的核心演進(jìn)框架。首先,是存儲(chǔ)層走向AI數(shù)據(jù)湖庫(kù)(Lakebase)。傳統(tǒng)數(shù)據(jù)庫(kù)擅長(zhǎng)處理結(jié)構(gòu)化數(shù)據(jù),而AI時(shí)代需要處理文本、圖像、視頻等多樣化數(shù)據(jù)。多模態(tài)AI數(shù)據(jù)湖庫(kù)(Lakebase)架構(gòu)融合了數(shù)據(jù)庫(kù)與數(shù)據(jù)湖的能力,成為支持多模態(tài)數(shù)據(jù)處理、特征提取與檢索的第一步。
其次,是統(tǒng)一的元數(shù)據(jù)管理,AI時(shí)代的數(shù)據(jù)源爆炸性增長(zhǎng),且格式高度異構(gòu),元數(shù)據(jù)本身的規(guī)模已從過(guò)去的兆字節(jié)躍升至太字節(jié)級(jí)別。阿里云將Zero-ETL技術(shù)應(yīng)用于元數(shù)據(jù)層,實(shí)現(xiàn)了數(shù)據(jù)源變更時(shí)元信息的實(shí)時(shí)自動(dòng)同步,高效治理海量異構(gòu)數(shù)據(jù)。
第三,是多模態(tài)檢索與處理能力,數(shù)據(jù)庫(kù)需從單一的結(jié)構(gòu)化查詢,演進(jìn)為能同時(shí)支持向量、全文、圖等多種檢索方式的融合引擎,實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的深度理解與利用。
![]()
第四,是模型算子化與Agent AI的原生支持。大模型雖能“吞噬”冷、溫?cái)?shù)據(jù),卻無(wú)法實(shí)時(shí)消化業(yè)務(wù)系統(tǒng)中持續(xù)產(chǎn)生的“熱數(shù)據(jù)”,將模型推理能力以“算子”形式內(nèi)置到數(shù)據(jù)庫(kù),讓大模型能直接、實(shí)時(shí)地與高價(jià)值熱數(shù)據(jù)互動(dòng),讓Token的消耗變得場(chǎng)景化、有價(jià)值。同時(shí),數(shù)據(jù)庫(kù)必須成為AI Agent開(kāi)發(fā)、部署和運(yùn)行的最佳平臺(tái),因?yàn)槲磥?lái)大量的數(shù)據(jù)庫(kù)交互將由自主Agent完成。
最后的“+1”,是跟上硬件創(chuàng)新步伐。經(jīng)典的“內(nèi)存墻”問(wèn)題在AI時(shí)代重新凸顯,內(nèi)存等硬件成本正進(jìn)入長(zhǎng)期上漲周期。數(shù)據(jù)庫(kù)系統(tǒng)必須充分利用CXL內(nèi)存池化、異構(gòu)計(jì)算(CPU/GPU)統(tǒng)一調(diào)度等硬件級(jí)創(chuàng)新,通過(guò)池化、共享與彈性來(lái)化解成本壓力,將硬件紅利轉(zhuǎn)化為用戶價(jià)值。
盡管阿里云試圖為AI原生數(shù)據(jù)庫(kù)設(shè)立高門檻,但市場(chǎng)并未等待共識(shí)達(dá)成。過(guò)去一年,包括谷歌云、Snowflake、微軟,以及國(guó)內(nèi)的騰訊云、字節(jié)跳動(dòng)火山引擎、螞蟻集團(tuán) OceanBase 等,都已將 “AI 原生” 或 “AI 增強(qiáng)” 作為數(shù)據(jù)庫(kù)產(chǎn)品的核心賣點(diǎn)。
各家路徑雖有不同,但共識(shí)相近,與大模型服務(wù)的深度集成,提供從數(shù)據(jù)準(zhǔn)備、向量化到推理調(diào)用的一站式體驗(yàn),成為競(jìng)爭(zhēng)焦點(diǎn)。
回到李飛飛所談的“AI原生數(shù)據(jù)庫(kù)“判斷標(biāo)準(zhǔn),“一半實(shí)例給 Agent 用”,這關(guān)乎誰(shuí)在主導(dǎo)數(shù)據(jù)交互,未來(lái)企業(yè)內(nèi)大量常規(guī)的數(shù)據(jù)查詢、寫(xiě)入、分析任務(wù)將由 AI Agent 自主完成,而非人類工程師編寫(xiě)固定代碼。
“一半輸出是 Token”,傳統(tǒng)數(shù)據(jù)庫(kù)的核心產(chǎn)出是規(guī)整的表格,供給業(yè)務(wù)系統(tǒng)或分析師。而在李飛飛描繪的圖景中,未來(lái)的數(shù)據(jù)庫(kù)更像一個(gè) “數(shù)據(jù)與 AI 的融合反應(yīng)堆”,實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)在此被即時(shí)轉(zhuǎn)化為 Token,與內(nèi)置或外聯(lián)的大模型進(jìn)行推理交互,直接產(chǎn)出智能決策、自然語(yǔ)言回答或驅(qū)動(dòng)業(yè)務(wù)流程。
AI能力之外,行業(yè)也格外關(guān)注數(shù)據(jù)庫(kù)的成本,阿里云數(shù)據(jù)庫(kù)產(chǎn)品事業(yè)部產(chǎn)品管理與技術(shù)架構(gòu)部負(fù)責(zé)人王遠(yuǎn)表示,規(guī)模效應(yīng)始終是釋放成本紅利的基礎(chǔ)。阿里云通過(guò)資源池化、多租戶間的共享以及極致的彈性伸縮,這三者的共同作用,是在AI時(shí)代硬件成本上漲的背景下,確保價(jià)格優(yōu)勢(shì)的關(guān)鍵。
例如,并非所有數(shù)據(jù)都需要昂貴的高速存儲(chǔ),PolarDB通過(guò)智能化冷熱數(shù)據(jù)分層與調(diào)度,自動(dòng)將數(shù)據(jù)遷移至高性價(jià)比的存儲(chǔ)介質(zhì),在用戶無(wú)感的情況下降低存儲(chǔ)成本。同時(shí)利用CXL等新興硬件技術(shù),構(gòu)建超大規(guī)模的遠(yuǎn)端內(nèi)存池,該池可供多租戶共享復(fù)用,大幅提升內(nèi)存利用率,并間接提升CPU利用率,以對(duì)沖當(dāng)前內(nèi)存價(jià)格的快速上漲趨勢(shì)。
目前,阿里云PolarDB海內(nèi)外企業(yè)客戶超2萬(wàn),部署規(guī)模超300萬(wàn)核,覆蓋全球86個(gè)可用區(qū)。PolarDB 云原生與Data+AI相關(guān)功能與創(chuàng)新技術(shù)已規(guī)?;瘧?yīng)用于金融、汽車、政務(wù)、互聯(lián)網(wǎng)、電信等領(lǐng)域的核心業(yè)務(wù)系統(tǒng),服務(wù)了某大型商業(yè)銀行、理想汽車、小鵬汽車、MiniMax、GoTo集團(tuán)、度小滿、米哈游等知名企業(yè)。(本文作者 | 張帥,編輯 | 蓋虹達(dá))
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論