圖片來(lái)自AI生成

“現(xiàn)在誰(shuí)喊AI Native(AI原生)數(shù)據(jù)庫(kù),誰(shuí)就是‘大躍進(jìn)’。” 阿里云資深副總裁、數(shù)據(jù)庫(kù)產(chǎn)品事業(yè)部負(fù)責(zé)人李飛飛如此表示。

AI浪潮正以前所未有的力度,重塑數(shù)據(jù)庫(kù)。過(guò)去數(shù)據(jù)庫(kù)的核心任務(wù)是存得住、查得快、事務(wù)不出錯(cuò),大模型到來(lái)之后,企業(yè)亟需一個(gè)能統(tǒng)一處理多模態(tài)數(shù)據(jù),并能與大模型高效協(xié)同的新型數(shù)據(jù)基礎(chǔ)設(shè)施,這個(gè)有著數(shù)十年歷史的基礎(chǔ)軟件市場(chǎng),正在被大模型悄然改變。

云廠商的主流做法是,在其云原生數(shù)據(jù)庫(kù)底座上,快速集成向量檢索、模型調(diào)用等AI能力,強(qiáng)調(diào)平滑升級(jí)、成本優(yōu)勢(shì)和對(duì)海量現(xiàn)有客戶的延續(xù)性。而新興勢(shì)力則更傾向于講述原生AI的故事,主張為AI工作負(fù)載從頭設(shè)計(jì)存儲(chǔ)、查詢與計(jì)算架構(gòu),以獲取極致的性能與靈活性。

這種對(duì)比頗有些類似AI芯片行業(yè)數(shù)年前的故事,AI芯片創(chuàng)業(yè)企業(yè)試圖實(shí)現(xiàn)打造專用芯片,以實(shí)現(xiàn)更高的性能和更好的性價(jià)比,挑戰(zhàn)英偉達(dá)。但是,大模型的快速演進(jìn)使得那些定向優(yōu)化失效,反而是更具備通用性的英偉達(dá)GPU,持續(xù)保持市場(chǎng)統(tǒng)治力。

李飛飛直言,“今天有些數(shù)據(jù)庫(kù)廠商已經(jīng)喊出AI Native(AI原生)數(shù)據(jù)庫(kù),我們還是實(shí)事求是,不想那么喊,因?yàn)锳I賽道本身還在快速演進(jìn),我不認(rèn)為現(xiàn)在任何人做到了所謂的AI Native。”

什么才算是真正的AI Native(AI原生)數(shù)據(jù)庫(kù),李飛飛提出了自己判斷 AI 原生數(shù)據(jù)庫(kù)的兩項(xiàng)標(biāo)準(zhǔn):超一半的數(shù)據(jù)庫(kù)實(shí)例由 AI Agent(智能體)直接驅(qū)動(dòng)使用;超一半的數(shù)據(jù)庫(kù)輸出是Token。當(dāng)前尚屬于向AI原生數(shù)據(jù)庫(kù)演進(jìn)的過(guò)渡階段。

數(shù)據(jù)庫(kù)的行業(yè)邏輯,變了

“未來(lái)一段時(shí)間,人工智能行業(yè)的瓶頸可能不再是算力,而是數(shù)據(jù)和存儲(chǔ)。”李飛飛表示,在人工智能向超級(jí)智能(ASI)演進(jìn)的路徑上,經(jīng)典的“內(nèi)存墻”問(wèn)題以新的形式回歸,近期DRAM等存儲(chǔ)硬件價(jià)格大幅上漲,正是這一趨勢(shì)的體現(xiàn)。

存儲(chǔ)漲價(jià)是行業(yè)變革的一個(gè)縮影,真正的推力是由大模型掀起的、重塑整個(gè)產(chǎn)業(yè)鏈的合力。AI時(shí)代的數(shù)據(jù)是文本、圖片、音頻、視頻、向量、圖結(jié)構(gòu)等,傳統(tǒng)數(shù)據(jù)庫(kù)只擅長(zhǎng)前兩種的一小部分,現(xiàn)在要同時(shí)處理結(jié)構(gòu)化 + 半結(jié)構(gòu)化 + 非結(jié)構(gòu)化 + 向量化表達(dá),數(shù)據(jù)庫(kù)向多模態(tài)的融合數(shù)據(jù)庫(kù)演進(jìn)。

李飛飛認(rèn)為,從學(xué)習(xí)人、輔助人到自我迭代超越人,大模型正在吞噬一切冷數(shù)據(jù)和溫?cái)?shù)據(jù),將其壓縮為模型參數(shù)。然而,企業(yè)業(yè)務(wù)系統(tǒng)中實(shí)時(shí)產(chǎn)生的“熱數(shù)據(jù)”(Hot Data),因其動(dòng)態(tài)變化、高頻更新的特性,短期內(nèi)無(wú)法被大模型完全內(nèi)化。

“熱數(shù)據(jù)才是維持智能引擎運(yùn)轉(zhuǎn)的高價(jià)值燃料。”李飛飛強(qiáng)調(diào),將高質(zhì)量、實(shí)時(shí)的私域熱數(shù)據(jù),與通用的、具備強(qiáng)大認(rèn)知能力的大模型有機(jī)結(jié)合,是實(shí)現(xiàn)“輔助人”到“超越人”的關(guān)鍵。而最佳的化學(xué)反應(yīng)發(fā)生地,正是數(shù)據(jù)庫(kù)內(nèi)部。

為此,阿里云在過(guò)去兩年將PolarDB從一個(gè)云原生數(shù)據(jù)庫(kù),快速演進(jìn)為一個(gè) “AI就緒的云原生數(shù)據(jù)庫(kù)”。其核心理念是:將大模型能力嵌入數(shù)據(jù)庫(kù),讓智能交互在數(shù)據(jù)實(shí)時(shí)產(chǎn)生的地方發(fā)生,數(shù)據(jù)不必來(lái)回搬運(yùn),也更好地保障了數(shù)據(jù)主權(quán)與隱私安全。

和過(guò)去不同的是,數(shù)據(jù)庫(kù)廠商要同時(shí)懂?dāng)?shù)據(jù)和模型。傳統(tǒng)數(shù)據(jù)庫(kù)團(tuán)隊(duì)強(qiáng)在系統(tǒng)工程,AI 團(tuán)隊(duì)強(qiáng)在模型算法,但 AI 時(shí)代的數(shù)據(jù)庫(kù),需要兩者深度融合,這不是加幾個(gè)向量索引就能完成改造,而是架構(gòu)層面的改變,為此阿里云也很早和百煉團(tuán)隊(duì)合作,但是一年前,當(dāng)李飛飛宣布打通百煉時(shí),外界還有疑問(wèn),并不完全理解阿里云的意圖。

“現(xiàn)在回頭看,絕對(duì)是輕舟已過(guò)萬(wàn)重山。在過(guò)去的短短幾個(gè)月內(nèi),通過(guò)阿里云瑤池?cái)?shù)據(jù)庫(kù)產(chǎn)品體系(包括云原生數(shù)據(jù)庫(kù)PolarDB、云原生數(shù)據(jù)倉(cāng)庫(kù)AnalyticDB、云數(shù)據(jù)庫(kù)RDS等)調(diào)用百煉、PAI及內(nèi)置模型算子服務(wù)所消耗的Token量,增長(zhǎng)了超過(guò)100倍。”李飛飛說(shuō)。

阿里云數(shù)據(jù)庫(kù)的“4+1”行動(dòng)

一位數(shù)據(jù)庫(kù)產(chǎn)品負(fù)責(zé)人對(duì)筆者表示,業(yè)界對(duì) “AI 原生” 的理解確實(shí)存在差異。“有的認(rèn)為深度集成向量計(jì)算和模型調(diào)用就是原生,有的則認(rèn)為需要從存儲(chǔ)引擎到查詢優(yōu)化器為 AI 工作負(fù)載徹底重寫(xiě)。”

另一位行業(yè)分析師則認(rèn)為,定義權(quán)之爭(zhēng)的背后是技術(shù)路線與市場(chǎng)卡位的雙重博弈。“原生“這個(gè)詞本身就意味著代際優(yōu)勢(shì)和市場(chǎng)洗牌的機(jī)會(huì)。沒(méi)有廠商愿意在此時(shí)落后于敘事。

李飛飛表示,AI原生數(shù)據(jù)庫(kù)是技術(shù)演進(jìn)的必然方向。從云原生到AI就緒、再到AI原生,現(xiàn)階段阿里云PolarDB正在打造AI就緒的云原生數(shù)據(jù)庫(kù)。

從云原生到“AI就緒”,阿里云提出了一個(gè)“4+1”的核心演進(jìn)框架。首先,是存儲(chǔ)層走向AI數(shù)據(jù)湖庫(kù)(Lakebase)。傳統(tǒng)數(shù)據(jù)庫(kù)擅長(zhǎng)處理結(jié)構(gòu)化數(shù)據(jù),而AI時(shí)代需要處理文本、圖像、視頻等多樣化數(shù)據(jù)。多模態(tài)AI數(shù)據(jù)湖庫(kù)(Lakebase)架構(gòu)融合了數(shù)據(jù)庫(kù)與數(shù)據(jù)湖的能力,成為支持多模態(tài)數(shù)據(jù)處理、特征提取與檢索的第一步。

其次,是統(tǒng)一的元數(shù)據(jù)管理,AI時(shí)代的數(shù)據(jù)源爆炸性增長(zhǎng),且格式高度異構(gòu),元數(shù)據(jù)本身的規(guī)模已從過(guò)去的兆字節(jié)躍升至太字節(jié)級(jí)別。阿里云將Zero-ETL技術(shù)應(yīng)用于元數(shù)據(jù)層,實(shí)現(xiàn)了數(shù)據(jù)源變更時(shí)元信息的實(shí)時(shí)自動(dòng)同步,高效治理海量異構(gòu)數(shù)據(jù)。

第三,是多模態(tài)檢索與處理能力,數(shù)據(jù)庫(kù)需從單一的結(jié)構(gòu)化查詢,演進(jìn)為能同時(shí)支持向量、全文、圖等多種檢索方式的融合引擎,實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的深度理解與利用。

第四,是模型算子化與Agent AI的原生支持。大模型雖能“吞噬”冷、溫?cái)?shù)據(jù),卻無(wú)法實(shí)時(shí)消化業(yè)務(wù)系統(tǒng)中持續(xù)產(chǎn)生的“熱數(shù)據(jù)”,將模型推理能力以“算子”形式內(nèi)置到數(shù)據(jù)庫(kù),讓大模型能直接、實(shí)時(shí)地與高價(jià)值熱數(shù)據(jù)互動(dòng),讓Token的消耗變得場(chǎng)景化、有價(jià)值。同時(shí),數(shù)據(jù)庫(kù)必須成為AI Agent開(kāi)發(fā)、部署和運(yùn)行的最佳平臺(tái),因?yàn)槲磥?lái)大量的數(shù)據(jù)庫(kù)交互將由自主Agent完成。

最后的“+1”,是跟上硬件創(chuàng)新步伐。經(jīng)典的“內(nèi)存墻”問(wèn)題在AI時(shí)代重新凸顯,內(nèi)存等硬件成本正進(jìn)入長(zhǎng)期上漲周期。數(shù)據(jù)庫(kù)系統(tǒng)必須充分利用CXL內(nèi)存池化、異構(gòu)計(jì)算(CPU/GPU)統(tǒng)一調(diào)度等硬件級(jí)創(chuàng)新,通過(guò)池化、共享與彈性來(lái)化解成本壓力,將硬件紅利轉(zhuǎn)化為用戶價(jià)值。

為什么是 “50%”?

盡管阿里云試圖為AI原生數(shù)據(jù)庫(kù)設(shè)立高門檻,但市場(chǎng)并未等待共識(shí)達(dá)成。過(guò)去一年,包括谷歌云、Snowflake、微軟,以及國(guó)內(nèi)的騰訊云、字節(jié)跳動(dòng)火山引擎、螞蟻集團(tuán) OceanBase 等,都已將 “AI 原生” 或 “AI 增強(qiáng)” 作為數(shù)據(jù)庫(kù)產(chǎn)品的核心賣點(diǎn)。

各家路徑雖有不同,但共識(shí)相近,與大模型服務(wù)的深度集成,提供從數(shù)據(jù)準(zhǔn)備、向量化到推理調(diào)用的一站式體驗(yàn),成為競(jìng)爭(zhēng)焦點(diǎn)。

回到李飛飛所談的“AI原生數(shù)據(jù)庫(kù)“判斷標(biāo)準(zhǔn),“一半實(shí)例給 Agent 用”,這關(guān)乎誰(shuí)在主導(dǎo)數(shù)據(jù)交互,未來(lái)企業(yè)內(nèi)大量常規(guī)的數(shù)據(jù)查詢、寫(xiě)入、分析任務(wù)將由 AI Agent 自主完成,而非人類工程師編寫(xiě)固定代碼。

“一半輸出是 Token”,傳統(tǒng)數(shù)據(jù)庫(kù)的核心產(chǎn)出是規(guī)整的表格,供給業(yè)務(wù)系統(tǒng)或分析師。而在李飛飛描繪的圖景中,未來(lái)的數(shù)據(jù)庫(kù)更像一個(gè) “數(shù)據(jù)與 AI 的融合反應(yīng)堆”,實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)在此被即時(shí)轉(zhuǎn)化為 Token,與內(nèi)置或外聯(lián)的大模型進(jìn)行推理交互,直接產(chǎn)出智能決策、自然語(yǔ)言回答或驅(qū)動(dòng)業(yè)務(wù)流程。

AI能力之外,行業(yè)也格外關(guān)注數(shù)據(jù)庫(kù)的成本,阿里云數(shù)據(jù)庫(kù)產(chǎn)品事業(yè)部產(chǎn)品管理與技術(shù)架構(gòu)部負(fù)責(zé)人王遠(yuǎn)表示,規(guī)模效應(yīng)始終是釋放成本紅利的基礎(chǔ)。阿里云通過(guò)資源池化、多租戶間的共享以及極致的彈性伸縮,這三者的共同作用,是在AI時(shí)代硬件成本上漲的背景下,確保價(jià)格優(yōu)勢(shì)的關(guān)鍵。

例如,并非所有數(shù)據(jù)都需要昂貴的高速存儲(chǔ),PolarDB通過(guò)智能化冷熱數(shù)據(jù)分層與調(diào)度,自動(dòng)將數(shù)據(jù)遷移至高性價(jià)比的存儲(chǔ)介質(zhì),在用戶無(wú)感的情況下降低存儲(chǔ)成本。同時(shí)利用CXL等新興硬件技術(shù),構(gòu)建超大規(guī)模的遠(yuǎn)端內(nèi)存池,該池可供多租戶共享復(fù)用,大幅提升內(nèi)存利用率,并間接提升CPU利用率,以對(duì)沖當(dāng)前內(nèi)存價(jià)格的快速上漲趨勢(shì)。

目前,阿里云PolarDB海內(nèi)外企業(yè)客戶超2萬(wàn),部署規(guī)模超300萬(wàn)核,覆蓋全球86個(gè)可用區(qū)。PolarDB 云原生與Data+AI相關(guān)功能與創(chuàng)新技術(shù)已規(guī)?;瘧?yīng)用于金融、汽車、政務(wù)、互聯(lián)網(wǎng)、電信等領(lǐng)域的核心業(yè)務(wù)系統(tǒng),服務(wù)了某大型商業(yè)銀行、理想汽車、小鵬汽車、MiniMax、GoTo集團(tuán)、度小滿、米哈游等知名企業(yè)。(本文作者 | 張帥,編輯 | 蓋虹達(dá))

轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接
聲明:文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

09:15

瓶片期貨主力合約日內(nèi)跌幅擴(kuò)大至10%

09:14

澤連斯基:烏克蘭和談應(yīng)恢復(fù),烏美21日先談

09:13

布倫特原油期貨日內(nèi)跌超2%

09:11

現(xiàn)貨白銀日內(nèi)漲幅擴(kuò)大至1%

09:10

北交所上市公司今日達(dá)到300家

09:09

華沿機(jī)器人尋求在香港IPO中籌資13.7億港元

09:08

券商調(diào)研名單出爐,風(fēng)電、光伏、存儲(chǔ)芯片熱度高

09:06

激光和納米結(jié)構(gòu)在室溫下“孕育”出超固體

09:04

富時(shí)中國(guó)A50指數(shù)期貨盤(pán)初漲0.15%

09:03

國(guó)內(nèi)商品期貨開(kāi)盤(pán)多數(shù)下跌,瓶片跌超7%

09:02

3月LPR報(bào)價(jià)出爐:5年期和1年期利率均維持不變

09:01

美國(guó)白宮據(jù)報(bào)將在數(shù)日內(nèi)發(fā)布人工智能監(jiān)管框架

08:59

國(guó)民技術(shù):確定H股發(fā)行的最終價(jià)格為每股10.8港元,預(yù)計(jì)3月23日上市

08:52

第二艘國(guó)產(chǎn)大型郵輪“愛(ài)達(dá)·花城號(hào)”今日將出塢

08:50

編造傳播涉科大訊飛網(wǎng)絡(luò)謠言,沙某被行拘

08:49

深港通下的港股通標(biāo)的證券名單調(diào)整,調(diào)入廣合科技

08:48

兩市融資余額減少42.88億元

08:45

3月20日A股盤(pán)前要聞

08:33

美聯(lián)儲(chǔ)4月維持利率不變的概率為92.8%,加息概率為7.2%

08:32

豬價(jià)下跌+業(yè)績(jī)承壓,生豬養(yǎng)殖業(yè)寒意加深

掃描下載App