圖片來自AI生成
“現(xiàn)在誰喊AI Native(AI原生)數(shù)據(jù)庫,誰就是‘大躍進’。” 阿里云資深副總裁、數(shù)據(jù)庫產(chǎn)品事業(yè)部負責人李飛飛如此表示。
AI浪潮正以前所未有的力度,重塑數(shù)據(jù)庫。過去數(shù)據(jù)庫的核心任務是存得住、查得快、事務不出錯,大模型到來之后,企業(yè)亟需一個能統(tǒng)一處理多模態(tài)數(shù)據(jù),并能與大模型高效協(xié)同的新型數(shù)據(jù)基礎設施,這個有著數(shù)十年歷史的基礎軟件市場,正在被大模型悄然改變。
云廠商的主流做法是,在其云原生數(shù)據(jù)庫底座上,快速集成向量檢索、模型調用等AI能力,強調平滑升級、成本優(yōu)勢和對海量現(xiàn)有客戶的延續(xù)性。而新興勢力則更傾向于講述原生AI的故事,主張為AI工作負載從頭設計存儲、查詢與計算架構,以獲取極致的性能與靈活性。
這種對比頗有些類似AI芯片行業(yè)數(shù)年前的故事,AI芯片創(chuàng)業(yè)企業(yè)試圖實現(xiàn)打造專用芯片,以實現(xiàn)更高的性能和更好的性價比,挑戰(zhàn)英偉達。但是,大模型的快速演進使得那些定向優(yōu)化失效,反而是更具備通用性的英偉達GPU,持續(xù)保持市場統(tǒng)治力。
![]()
李飛飛直言,“今天有些數(shù)據(jù)庫廠商已經(jīng)喊出AI Native(AI原生)數(shù)據(jù)庫,我們還是實事求是,不想那么喊,因為AI賽道本身還在快速演進,我不認為現(xiàn)在任何人做到了所謂的AI Native。”
什么才算是真正的AI Native(AI原生)數(shù)據(jù)庫,李飛飛提出了自己判斷 AI 原生數(shù)據(jù)庫的兩項標準:超一半的數(shù)據(jù)庫實例由 AI Agent(智能體)直接驅動使用;超一半的數(shù)據(jù)庫輸出是Token。當前尚屬于向AI原生數(shù)據(jù)庫演進的過渡階段。
“未來一段時間,人工智能行業(yè)的瓶頸可能不再是算力,而是數(shù)據(jù)和存儲。”李飛飛表示,在人工智能向超級智能(ASI)演進的路徑上,經(jīng)典的“內(nèi)存墻”問題以新的形式回歸,近期DRAM等存儲硬件價格大幅上漲,正是這一趨勢的體現(xiàn)。
存儲漲價是行業(yè)變革的一個縮影,真正的推力是由大模型掀起的、重塑整個產(chǎn)業(yè)鏈的合力。AI時代的數(shù)據(jù)是文本、圖片、音頻、視頻、向量、圖結構等,傳統(tǒng)數(shù)據(jù)庫只擅長前兩種的一小部分,現(xiàn)在要同時處理結構化 + 半結構化 + 非結構化 + 向量化表達,數(shù)據(jù)庫向多模態(tài)的融合數(shù)據(jù)庫演進。
李飛飛認為,從學習人、輔助人到自我迭代超越人,大模型正在吞噬一切冷數(shù)據(jù)和溫數(shù)據(jù),將其壓縮為模型參數(shù)。然而,企業(yè)業(yè)務系統(tǒng)中實時產(chǎn)生的“熱數(shù)據(jù)”(Hot Data),因其動態(tài)變化、高頻更新的特性,短期內(nèi)無法被大模型完全內(nèi)化。
“熱數(shù)據(jù)才是維持智能引擎運轉的高價值燃料。”李飛飛強調,將高質量、實時的私域熱數(shù)據(jù),與通用的、具備強大認知能力的大模型有機結合,是實現(xiàn)“輔助人”到“超越人”的關鍵。而最佳的化學反應發(fā)生地,正是數(shù)據(jù)庫內(nèi)部。
為此,阿里云在過去兩年將PolarDB從一個云原生數(shù)據(jù)庫,快速演進為一個 “AI就緒的云原生數(shù)據(jù)庫”。其核心理念是:將大模型能力嵌入數(shù)據(jù)庫,讓智能交互在數(shù)據(jù)實時產(chǎn)生的地方發(fā)生,數(shù)據(jù)不必來回搬運,也更好地保障了數(shù)據(jù)主權與隱私安全。
和過去不同的是,數(shù)據(jù)庫廠商要同時懂數(shù)據(jù)和模型。傳統(tǒng)數(shù)據(jù)庫團隊強在系統(tǒng)工程,AI 團隊強在模型算法,但 AI 時代的數(shù)據(jù)庫,需要兩者深度融合,這不是加幾個向量索引就能完成改造,而是架構層面的改變,為此阿里云也很早和百煉團隊合作,但是一年前,當李飛飛宣布打通百煉時,外界還有疑問,并不完全理解阿里云的意圖。
“現(xiàn)在回頭看,絕對是輕舟已過萬重山。在過去的短短幾個月內(nèi),通過阿里云瑤池數(shù)據(jù)庫產(chǎn)品體系(包括云原生數(shù)據(jù)庫PolarDB、云原生數(shù)據(jù)倉庫AnalyticDB、云數(shù)據(jù)庫RDS等)調用百煉、PAI及內(nèi)置模型算子服務所消耗的Token量,增長了超過100倍。”李飛飛說。
一位數(shù)據(jù)庫產(chǎn)品負責人對筆者表示,業(yè)界對 “AI 原生” 的理解確實存在差異。“有的認為深度集成向量計算和模型調用就是原生,有的則認為需要從存儲引擎到查詢優(yōu)化器為 AI 工作負載徹底重寫。”
另一位行業(yè)分析師則認為,定義權之爭的背后是技術路線與市場卡位的雙重博弈。“原生“這個詞本身就意味著代際優(yōu)勢和市場洗牌的機會。沒有廠商愿意在此時落后于敘事。
李飛飛表示,AI原生數(shù)據(jù)庫是技術演進的必然方向。從云原生到AI就緒、再到AI原生,現(xiàn)階段阿里云PolarDB正在打造AI就緒的云原生數(shù)據(jù)庫。
從云原生到“AI就緒”,阿里云提出了一個“4+1”的核心演進框架。首先,是存儲層走向AI數(shù)據(jù)湖庫(Lakebase)。傳統(tǒng)數(shù)據(jù)庫擅長處理結構化數(shù)據(jù),而AI時代需要處理文本、圖像、視頻等多樣化數(shù)據(jù)。多模態(tài)AI數(shù)據(jù)湖庫(Lakebase)架構融合了數(shù)據(jù)庫與數(shù)據(jù)湖的能力,成為支持多模態(tài)數(shù)據(jù)處理、特征提取與檢索的第一步。
其次,是統(tǒng)一的元數(shù)據(jù)管理,AI時代的數(shù)據(jù)源爆炸性增長,且格式高度異構,元數(shù)據(jù)本身的規(guī)模已從過去的兆字節(jié)躍升至太字節(jié)級別。阿里云將Zero-ETL技術應用于元數(shù)據(jù)層,實現(xiàn)了數(shù)據(jù)源變更時元信息的實時自動同步,高效治理海量異構數(shù)據(jù)。
第三,是多模態(tài)檢索與處理能力,數(shù)據(jù)庫需從單一的結構化查詢,演進為能同時支持向量、全文、圖等多種檢索方式的融合引擎,實現(xiàn)對非結構化數(shù)據(jù)的深度理解與利用。
![]()
第四,是模型算子化與Agent AI的原生支持。大模型雖能“吞噬”冷、溫數(shù)據(jù),卻無法實時消化業(yè)務系統(tǒng)中持續(xù)產(chǎn)生的“熱數(shù)據(jù)”,將模型推理能力以“算子”形式內(nèi)置到數(shù)據(jù)庫,讓大模型能直接、實時地與高價值熱數(shù)據(jù)互動,讓Token的消耗變得場景化、有價值。同時,數(shù)據(jù)庫必須成為AI Agent開發(fā)、部署和運行的最佳平臺,因為未來大量的數(shù)據(jù)庫交互將由自主Agent完成。
最后的“+1”,是跟上硬件創(chuàng)新步伐。經(jīng)典的“內(nèi)存墻”問題在AI時代重新凸顯,內(nèi)存等硬件成本正進入長期上漲周期。數(shù)據(jù)庫系統(tǒng)必須充分利用CXL內(nèi)存池化、異構計算(CPU/GPU)統(tǒng)一調度等硬件級創(chuàng)新,通過池化、共享與彈性來化解成本壓力,將硬件紅利轉化為用戶價值。
盡管阿里云試圖為AI原生數(shù)據(jù)庫設立高門檻,但市場并未等待共識達成。過去一年,包括谷歌云、Snowflake、微軟,以及國內(nèi)的騰訊云、字節(jié)跳動火山引擎、螞蟻集團 OceanBase 等,都已將 “AI 原生” 或 “AI 增強” 作為數(shù)據(jù)庫產(chǎn)品的核心賣點。
各家路徑雖有不同,但共識相近,與大模型服務的深度集成,提供從數(shù)據(jù)準備、向量化到推理調用的一站式體驗,成為競爭焦點。
回到李飛飛所談的“AI原生數(shù)據(jù)庫“判斷標準,“一半實例給 Agent 用”,這關乎誰在主導數(shù)據(jù)交互,未來企業(yè)內(nèi)大量常規(guī)的數(shù)據(jù)查詢、寫入、分析任務將由 AI Agent 自主完成,而非人類工程師編寫固定代碼。
“一半輸出是 Token”,傳統(tǒng)數(shù)據(jù)庫的核心產(chǎn)出是規(guī)整的表格,供給業(yè)務系統(tǒng)或分析師。而在李飛飛描繪的圖景中,未來的數(shù)據(jù)庫更像一個 “數(shù)據(jù)與 AI 的融合反應堆”,實時業(yè)務數(shù)據(jù)在此被即時轉化為 Token,與內(nèi)置或外聯(lián)的大模型進行推理交互,直接產(chǎn)出智能決策、自然語言回答或驅動業(yè)務流程。
AI能力之外,行業(yè)也格外關注數(shù)據(jù)庫的成本,阿里云數(shù)據(jù)庫產(chǎn)品事業(yè)部產(chǎn)品管理與技術架構部負責人王遠表示,規(guī)模效應始終是釋放成本紅利的基礎。阿里云通過資源池化、多租戶間的共享以及極致的彈性伸縮,這三者的共同作用,是在AI時代硬件成本上漲的背景下,確保價格優(yōu)勢的關鍵。
例如,并非所有數(shù)據(jù)都需要昂貴的高速存儲,PolarDB通過智能化冷熱數(shù)據(jù)分層與調度,自動將數(shù)據(jù)遷移至高性價比的存儲介質,在用戶無感的情況下降低存儲成本。同時利用CXL等新興硬件技術,構建超大規(guī)模的遠端內(nèi)存池,該池可供多租戶共享復用,大幅提升內(nèi)存利用率,并間接提升CPU利用率,以對沖當前內(nèi)存價格的快速上漲趨勢。
目前,阿里云PolarDB海內(nèi)外企業(yè)客戶超2萬,部署規(guī)模超300萬核,覆蓋全球86個可用區(qū)。PolarDB 云原生與Data+AI相關功能與創(chuàng)新技術已規(guī)?;瘧糜诮鹑?、汽車、政務、互聯(lián)網(wǎng)、電信等領域的核心業(yè)務系統(tǒng),服務了某大型商業(yè)銀行、理想汽車、小鵬汽車、MiniMax、GoTo集團、度小滿、米哈游等知名企業(yè)。(本文作者 | 張帥,編輯 | 蓋虹達)
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論