AI for DB正悄悄成為一個(gè)火熱賽道。最顯著的特征之一是去年紅極一時(shí)的向量數(shù)據(jù)庫(kù)/向量檢索技術(shù),越來(lái)越受到AI大模型落地的追捧。
AI for DB,即關(guān)注AI為database數(shù)據(jù)庫(kù)服務(wù)。從用戶痛點(diǎn)上,傳統(tǒng)的數(shù)據(jù)庫(kù)基礎(chǔ)設(shè)施并不是為AI大模型所設(shè)計(jì)的,也不是為了滿足現(xiàn)如今的向量檢索而設(shè)計(jì)。
例如,企業(yè)落地大模型應(yīng)用,必然需要構(gòu)建龐大的數(shù)據(jù)集,只有高質(zhì)量、高密度的數(shù)據(jù)去訓(xùn)練模型,才有可能得到更精準(zhǔn)的效果。但獲取和管理如此龐大的數(shù)據(jù)通常需要大量資源,包括存儲(chǔ)資源、計(jì)算能力和數(shù)據(jù)處理能力。同時(shí),集成具有各類格式、質(zhì)量、顆粒度、異構(gòu)的數(shù)據(jù)源也會(huì)使得模型訓(xùn)練過(guò)程變得復(fù)雜。這也是為什么企業(yè)目前對(duì)生成式AI仍保持謹(jǐn)慎樂(lè)觀的原因之一。
鈦媒體注意到,從去年開始,在海外市場(chǎng),頭部的數(shù)據(jù)庫(kù)/數(shù)倉(cāng)企業(yè),甚至于大模型企業(yè)都已經(jīng)在積極采取產(chǎn)品發(fā)布、或進(jìn)行收購(gòu)、合作的方式,搶占AI數(shù)據(jù)庫(kù)的市場(chǎng)先機(jī)。例如,云數(shù)倉(cāng)公司Snowflake宣布將與英偉達(dá)合作,為企業(yè)量身定制AI模型;Databricks以10億美金收購(gòu)Apache Iceberg背后公司Tabular;OpenAI以5億美金收購(gòu)擁有向量檢索技術(shù)的數(shù)據(jù)庫(kù)公司Sockset……
不過(guò),從目前來(lái)看,AI與數(shù)據(jù)庫(kù)的結(jié)合思路,也不僅僅是與向量檢索相關(guān)。過(guò)去幾年,像自治數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)自監(jiān)控自診斷、將低代碼+AI引入到text2SQL等等,都是業(yè)內(nèi)企業(yè)客戶還在探索、尚無(wú)定論的方向。
但也有業(yè)內(nèi)人士警示,AI與數(shù)據(jù)庫(kù)的結(jié)合仍然是個(gè)很新的技術(shù)方向,也可能存在技術(shù)的踏空。
不論AI for DB的趨勢(shì),一個(gè)首先存在的疑問(wèn)是:為什么是現(xiàn)在?以及新的解決思路是什么?
以O(shè)racle為例。
過(guò)去兩個(gè)月,Oracle先后公布對(duì)其兩款核心數(shù)據(jù)庫(kù)管理系統(tǒng)——Oracle Database和MySQL HeatWave數(shù)據(jù)庫(kù)進(jìn)行了AI重塑。單從其數(shù)據(jù)庫(kù)名稱的變更上就有了明顯的指向性:前者由Database 23c直接改為Database 23ai,而后者則升級(jí)為了HeatWave GenAI。不同時(shí)代版本從“i”互聯(lián)網(wǎng)、“g”網(wǎng)格、“c”云、“ai”人工智能、“GenAI”生成式AI的變遷,能夠反映出Oracle敏銳洞察不同時(shí)代下客戶訴求的引爆點(diǎn)。其中,Database 23ai正是對(duì)上述提及的向量數(shù)據(jù)庫(kù),以及超過(guò)300個(gè)主要功能進(jìn)行了升級(jí)。
開發(fā)人員可以用自然語(yǔ)言與Oracle數(shù)據(jù)庫(kù)“對(duì)話”,調(diào)用生成式AI的能力,生成SQL并執(zhí)行出最終結(jié)果,達(dá)到跟數(shù)據(jù)庫(kù)對(duì)話的目的。
具體來(lái)講,23ai的Vector Search(向量檢索)功能,使LLM(大語(yǔ)言模型)可以使用自然語(yǔ)言界面查詢私有業(yè)務(wù)數(shù)據(jù),并幫助LLM提供更準(zhǔn)確和更相關(guān)的結(jié)果??蛻艨梢允褂肰ector Search功能,安全地將文檔、圖像和其他非結(jié)構(gòu)化數(shù)據(jù)與私有業(yè)務(wù)數(shù)據(jù)結(jié)合搜索,而無(wú)需移動(dòng)或復(fù)制這些數(shù)據(jù)。這意味著,可以將AI算法引入到數(shù)據(jù)所在的位置,而不必將數(shù)據(jù)遷移到AI算法所在的位置,實(shí)現(xiàn)AI在Oracle數(shù)據(jù)庫(kù)中的實(shí)時(shí)運(yùn)行,大大提高AI的有效性、效率和安全性。
HeatWave GenAI,主要包含數(shù)據(jù)庫(kù)內(nèi)LLM、自動(dòng)化數(shù)據(jù)庫(kù)內(nèi)向量存儲(chǔ)、可擴(kuò)展向量處理,以及基于非結(jié)構(gòu)化內(nèi)容進(jìn)行自然語(yǔ)言上下文對(duì)話的功能。使用HeatWave GenAI,開發(fā)人員可以使用內(nèi)置的嵌入模型,通過(guò)單個(gè)SQL命令為企業(yè)非結(jié)構(gòu)化內(nèi)容創(chuàng)建向量存儲(chǔ)。用戶可以使用數(shù)據(jù)庫(kù)內(nèi)或外部LLM在單個(gè)步驟執(zhí)行自然語(yǔ)言搜索。數(shù)據(jù)不必離開數(shù)據(jù)庫(kù),由于HeatWave具備龐大的規(guī)模和超高的性能,用戶不需要預(yù)配GPU。因此,開發(fā)人員可以降低應(yīng)用的復(fù)雜性、提高性能、加強(qiáng)數(shù)據(jù)安全性并降低成本。
不難看出,Oracle的思路是,為AI和數(shù)據(jù)提供統(tǒng)一操作平臺(tái),這與其他數(shù)據(jù)庫(kù)產(chǎn)品形成鮮明對(duì)比。
例如,數(shù)據(jù)庫(kù)內(nèi)LLM功能使得用戶可以執(zhí)行開發(fā)模型和應(yīng)用程序所需的任務(wù),而無(wú)需將數(shù)據(jù)導(dǎo)出到可能不安全的環(huán)境中或?qū)⒖赡懿话踩腖LM導(dǎo)入其數(shù)據(jù)環(huán)境。由于無(wú)需導(dǎo)出或?qū)?,因此不存在通常與導(dǎo)出大量數(shù)據(jù)或?qū)氪罅縇LM相關(guān)的成本;數(shù)據(jù)庫(kù)內(nèi)向量存儲(chǔ),則讓用戶無(wú)需將數(shù)據(jù)移動(dòng)到單獨(dú)的向量數(shù)據(jù)庫(kù),也不需要具備AI專業(yè)知識(shí)。
而關(guān)于業(yè)內(nèi)關(guān)注的向量數(shù)據(jù)庫(kù),鈦媒體此前曾分析,如果數(shù)據(jù)庫(kù)廠商不單獨(dú)研發(fā)向量數(shù)據(jù)庫(kù),那么基本上會(huì)主張支持原生的向量詞嵌入和向量搜索引擎。
目前從23ai其實(shí)也在通過(guò)產(chǎn)品自證:向量檢索應(yīng)該是數(shù)據(jù)庫(kù)內(nèi)置能力,而非獨(dú)立產(chǎn)品。如果兩種類型的數(shù)據(jù)都由單個(gè)數(shù)據(jù)庫(kù)管理,那么對(duì)業(yè)務(wù)和語(yǔ)義數(shù)據(jù)組合的搜索會(huì)更容易、更快、更精確。而支撐這一路徑的解決方案是,一個(gè)可以管理所有數(shù)據(jù)的數(shù)據(jù)庫(kù),并以高性能和非常經(jīng)濟(jì)的方式進(jìn)行管理。在甲骨文公司副總裁及中國(guó)區(qū)董事總經(jīng)理吳承楊看來(lái),“所有數(shù)據(jù)都應(yīng)該放在一個(gè)地方。這樣一來(lái),提問(wèn)和查詢就變得容易多了。”
“今天大多數(shù)人的做法是,將數(shù)據(jù)庫(kù)的數(shù)據(jù)拿到AI,再拿出來(lái),往往還會(huì)涉及數(shù)據(jù)安全問(wèn)題、管理權(quán)限問(wèn)題等等。Oracle的做法是把AI帶到數(shù)據(jù)庫(kù),將向量數(shù)據(jù)庫(kù)嵌到整個(gè)數(shù)據(jù)庫(kù)。不光是向量,能夠?qū)⑽谋?、圖、JSON等多種類型數(shù)據(jù)整合起來(lái)的融合數(shù)據(jù)庫(kù),這一點(diǎn)只有Oracle能做到。”吳承楊表示。
甲骨文公司中國(guó)區(qū)技術(shù)咨詢部高級(jí)總監(jiān)李珈給鈦媒體分享了一則案例:某企業(yè)客戶從開源向量數(shù)據(jù)庫(kù)遷移到了Oracle融合數(shù)據(jù)庫(kù)。其背后驅(qū)動(dòng)因素核心有三點(diǎn):一是應(yīng)用架構(gòu)方面,原有應(yīng)用架構(gòu)涉及了不同技術(shù)棧,且管理復(fù)雜度較高,效率低;二是在數(shù)據(jù)與架構(gòu)擴(kuò)展時(shí)的性能問(wèn)題;三是無(wú)法與現(xiàn)有業(yè)務(wù)數(shù)據(jù)實(shí)現(xiàn)集成,檢索整體環(huán)節(jié)的效率往往不高。在李珈看來(lái),做出這樣選擇的客戶越來(lái)越多,已不是個(gè)例。
“有的客戶就是將標(biāo)簽信息放到MongoDB,權(quán)限信息、身份信息放到MySQL,知識(shí)圖譜放到圖數(shù)據(jù)庫(kù),然后文檔等向量數(shù)據(jù)存放到向量數(shù)據(jù)庫(kù)里,這導(dǎo)致應(yīng)用整合起來(lái)比較難。”李珈表示。
吳承楊指出,遷移這件事情本身并不復(fù)雜。關(guān)鍵是,客戶需要通過(guò)對(duì)比去感受,哪種技術(shù)方案(融合還是其他)會(huì)更加適合自己??蛻粽J(rèn)為數(shù)據(jù)很重要,但除了專業(yè)的DBA,客戶往往對(duì)數(shù)據(jù)庫(kù)是無(wú)感的。今天的數(shù)據(jù)庫(kù),不是講特別時(shí)髦的技術(shù)名詞,而是通過(guò)客戶的使用感受去決定數(shù)據(jù)庫(kù)應(yīng)該怎么做。
為此,Oracle還提出了現(xiàn)代數(shù)據(jù)平臺(tái)包括“4個(gè)Any”,即Anytime,Anywhere,Any Data,Anyone,目標(biāo)就是將數(shù)據(jù)的管理、開發(fā)到生成,都得到簡(jiǎn)化。
整體來(lái)看,Oracle的AI戰(zhàn)略圍繞著企業(yè)使用AI的實(shí)際場(chǎng)景而制定,打造了涵蓋整個(gè)技術(shù)堆棧的端到端生成式AI矩陣。包括基于Oracle Cloud Infrastructure(OCI)的AI基礎(chǔ)設(shè)施構(gòu)建支撐,面向AI提供數(shù)據(jù)的Oracle Database,Oracle Autonomous Database和MySQL HeatWave等數(shù)據(jù)庫(kù)產(chǎn)品,以及內(nèi)嵌生成式AI功能的ERP、HCM和CX等SaaS應(yīng)用。
不久前的財(cái)年財(cái)報(bào)中,Oracle就釋放出一項(xiàng)重要信息:僅在第四季度,Oracle就簽訂了超過(guò)30份AI銷售合同,總價(jià)值超過(guò)125億美元,其中包括一項(xiàng)重要合作,將微軟Azure平臺(tái)擴(kuò)展到OCI,支持OpenAI在推理等算力方面的需求。
現(xiàn)在大模型競(jìng)爭(zhēng)是非常激烈的,近期各家大模型產(chǎn)品迭代的速度正明顯加快,這對(duì)于模型訓(xùn)練速度就會(huì)提出很高的要求。GPU越多、數(shù)據(jù)集越大、語(yǔ)料庫(kù)越大,提供的基礎(chǔ)設(shè)施能力越強(qiáng),訓(xùn)練時(shí)間越短,就越能提高新品更新速度。
“目前Oracle最大的算力集群可達(dá)到3萬(wàn)張卡,未來(lái)量級(jí)可能會(huì)更大。”甲骨文公司中國(guó)區(qū)技術(shù)咨詢部高級(jí)總監(jiān)嵇小峰指出,OCI從第一天起就致力于提供先進(jìn)的AI和HPC基礎(chǔ)設(shè)施,Oracle專門做了網(wǎng)絡(luò)的優(yōu)化,構(gòu)建了一套無(wú)損網(wǎng)絡(luò)體系,讓整個(gè)GPU的可擴(kuò)展性變得更加強(qiáng)大。
OCI Supercluster可以實(shí)現(xiàn)多個(gè)GPU協(xié)同工作,同時(shí)Oracle即將發(fā)布高性能文件系統(tǒng),可以更好滿足客戶的訓(xùn)練需求。憑借新的OCI Compute裸機(jī)實(shí)例、超低延遲RDMA網(wǎng)絡(luò)和高效能儲(chǔ)存,OCI Supercluster的速度將顯著加快。OCI將會(huì)推出采用NVIDIA B200的機(jī)型,最大化幫助企業(yè)應(yīng)對(duì)AI模型不斷增長(zhǎng)的需求。
值得關(guān)注的是,2022年,Oracle與英偉達(dá)宣布長(zhǎng)期合作以來(lái),旨在將英偉達(dá)的完整加速計(jì)算堆棧引入OCI,如今,OCI已成為英偉達(dá)的超大規(guī)模云技術(shù)提供商,提供大規(guī)模的AI計(jì)算服務(wù)NVIDIA DGX Cloud。
嵇小峰解釋道:“盡管現(xiàn)在有了MoE模式,但在推理階段仍然需要大量算力。Oracle跟英偉達(dá)的合作,不同于以往伙伴間的合作,在一些核心服務(wù)的落地,兩邊的產(chǎn)品部門都有深層的合作。”
某種意義上講,Oracle已經(jīng)不單純是一家數(shù)據(jù)庫(kù)公司了。近些年在OCI、SaaS等層面的投入,已經(jīng)讓Oracle真正意義上成為像微軟、谷歌一樣的云計(jì)算公司。因而,理解Oracle在數(shù)據(jù)庫(kù)層面的投入邏輯,也不能照搬數(shù)據(jù)庫(kù)技術(shù)產(chǎn)品的限定,更不能站在國(guó)產(chǎn)替代的視角去判斷Oracle在中國(guó)市場(chǎng)的更多打開路徑。
目前23ai公有云版本已經(jīng)推出了,預(yù)計(jì)在今年下半年會(huì)有本地版落地。這意味著中國(guó)企業(yè)客戶使用23ai的門檻也將大大降低。
過(guò)去幾年,Oracle已經(jīng)在不斷強(qiáng)調(diào),在服務(wù)中國(guó)出海、跨國(guó)公司在中國(guó)業(yè)務(wù)的“雙循環(huán)”拓展邏輯,Oracle與中國(guó)企業(yè)客戶的合作,也在刷新對(duì)用戶訴求的理解。
(本文首發(fā)于鈦媒體APP 作者 | 楊麗,編輯 | 蓋虹達(dá))
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論