過去半年,向量數(shù)據(jù)庫成為為數(shù)不多在AIGC光環(huán)下迅速走紅的賽道,甚至有人將其視為AIGC成功的基石。7月4日,騰訊云也正式宣布推出向量數(shù)據(jù)庫,成為大廠中首例,目前阿里云、亞馬遜云等尚未釋放出明確信號。

“誰最先發(fā)布并不重要,重要的是誰有強大的資源能夠?qū)⑦@件事情快速落實下去。”一位數(shù)據(jù)庫產(chǎn)業(yè)觀察者對鈦媒體表示。對于大廠而言,是否要做一個獨立的數(shù)據(jù)庫還有待高層戰(zhàn)略選擇和布局節(jié)奏。但資本市場絕不會錯過追逐任何一個風口。

今年4月,Pinecone獲得了a16z領投的1億美元B輪融資,估值一度達到7.5億美元。作為OpenAI的合作方之一,Pinecone團隊的創(chuàng)始人Liberty還是亞馬遜AI實驗室的領導者,創(chuàng)建了當前有名的機器學習平臺SageMaker。而另一家同為OpenAI合作方、且估值超過5億美金的團隊,是來自中國的Zilliz。據(jù)鈦媒體獨家獲悉,近段時間,多家VC正在聯(lián)絡Zilliz試圖給出新一輪融資,而這家企業(yè)距上一輪融資不足一年。

據(jù)鈦媒體不完全統(tǒng)計,僅在2023年4月前后的一個月內(nèi),這個賽道已經(jīng)相繼有數(shù)家企業(yè)獲得主流投資機構(gòu)的投資,除了Pinecone外,還有Weaviate的5000萬美元B輪融資、Qdrant的750萬美元種子輪融資、Chroma的1800萬美元種子輪融資……向量數(shù)據(jù)庫無疑給了資本市場新的投資杠桿,但也有相關從業(yè)者預警,“想要做好需要積累,現(xiàn)在入局向量細分賽道已經(jīng)晚了。”

向量數(shù)據(jù)庫在大模型時代中展現(xiàn)出了巨大的商業(yè)機會。東北證券分析指出,向量數(shù)據(jù)庫市場空間巨大,目前處于從0-1階段。預測到2030年,全球向量數(shù)據(jù)庫市場規(guī)模有望達到500億美元,國內(nèi)向量數(shù)據(jù)庫市場規(guī)模有望超過600億人民幣。

不過,目前來看,這個賽道仍然充滿變數(shù)。

一方面,應用廣泛。即便傳統(tǒng)數(shù)據(jù)庫廠商不單獨研發(fā)向量數(shù)據(jù)庫,基本上也會選擇主張支持原生的向量詞嵌入和向量搜索引擎。對于那些缺乏向量檢索功能的數(shù)據(jù)庫,實現(xiàn)它可能也是時間早晚的問題。而對于有能力的大企業(yè)客戶也完全可以基于開源引擎嘗試使用,在此之前,許多互聯(lián)網(wǎng)公司、AI大公司也早就在使用向量引擎。值得一提的是,最近這段時間就連老牌MongoDB也在其NoSQL數(shù)據(jù)庫中增加向量搜索的方式進入到這股潮流。

另一方面,向量數(shù)據(jù)庫依然有其落地的技術(shù)難點。例如相似性檢索和計算復雜度的問題,對于Clickhouse的依賴性問題;作為一款面向AI應用的新型數(shù)據(jù)庫(與現(xiàn)有的SQL稍做區(qū)分),它并沒有替換已有的數(shù)據(jù)庫,依然需要跟傳統(tǒng)數(shù)據(jù)庫搭配使用。

值得一提的是,AIGC大模型到來,實際上帶來了新的場景應用點,這跟以往向量數(shù)據(jù)庫廠商在探索的客戶場景會有所不同。探索與創(chuàng)新,會顯得十分重要。未來數(shù)據(jù)庫能不能為上層的AI應用提供穩(wěn)定、高性能的基礎設施能力,才是重點考察方向。

目前業(yè)內(nèi)也在尋求數(shù)據(jù)庫與AIGC大模型的結(jié)合方式,例如阿里云今年最新迭代的云原生多模數(shù)據(jù)庫Lindorm,也可以支持AIGC場景應用。

“能力是ready的,但沒有人會非常有把握,因為現(xiàn)在AI的變化太快了,跟數(shù)據(jù)庫的結(jié)合應該有更多的層次。”國內(nèi)某數(shù)據(jù)庫創(chuàng)業(yè)公司負責人表示,通過過去一段時間與客戶的交流,現(xiàn)在正做的事情是將AI能力植入到其所倡導的Serverless HTAP數(shù)據(jù)庫架構(gòu)中。

 圖片引用自摩天輪《中國數(shù)據(jù)庫行業(yè)分析報告》,2022.10

結(jié)合墨天輪去年10月公布的全球數(shù)據(jù)庫行業(yè)分析報告可以看到,其從技術(shù)維度將向量數(shù)據(jù)庫產(chǎn)品進行了拆分:包括向量檢索庫、向量插件、向量字段、向量執(zhí)行化引擎。這其實也在透露出一個問題:當下火的其實并不完全是向量數(shù)據(jù)庫,而是在向量這一場景下的價值收益。

向量數(shù)據(jù)庫怎么就火了

近期,許多具備大模型技術(shù)棧研發(fā)實力的企業(yè),都會不約而同地提及“應用語言向量檢索技術(shù)用于模型訓練”。

在技術(shù)界,向量檢索并不是一個新名詞。但它的發(fā)展與人工智能浪潮的推動高度綁定。

向量,顧名思義Embedding,最開始的用于文本表達的詞向量,到后來可用于表達圖片、視頻、語音等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化的深層語義,通過數(shù)據(jù)向量化可被計算機識別、使用,且在轉(zhuǎn)化的過程中不丟失信息。一開始,向量技術(shù)也基本使用于互聯(lián)網(wǎng)大公司的業(yè)務場景中。

 圖片引用自Pinecone博客

例如,微軟Bing搜索引擎,在2000年就曾宣布使用向量實現(xiàn)搜索引擎的增強,可處理2000多億張網(wǎng)頁的向量數(shù)據(jù)。在那個時代,這個數(shù)據(jù)已經(jīng)非常龐大了,但在更多的工業(yè)界或?qū)嶒炇依铮蛄繑?shù)據(jù)仍處于小規(guī)模驗證的階段。

真正的改變則來自于2017年前后,伴隨深度學習在工業(yè)界的廣泛落地,實際應用場景下的數(shù)據(jù)量級開始直線增加。這一年,F(xiàn)AIR研究人員開源了(FAISS,F(xiàn)acebook AI Similarity Search)AI向量相似性檢索庫,在十億級數(shù)據(jù)集上創(chuàng)建了鄰近搜索、且運行于GPU的k-selection算法。2020年7月,谷歌研究院開源了向量相似性搜索庫ScaNN,提出新的數(shù)據(jù)集向量壓縮技術(shù),以提高向量檢索的準確性。

實際上,在此期間,國內(nèi)的互聯(lián)網(wǎng)公司也沒閑著,據(jù)說阿里巴巴自研了Proxima,對于更多的企業(yè),包括創(chuàng)業(yè)廠商在內(nèi),也會使用向量相似性檢索技術(shù)的相關開源組件如Faiss、Nmslib和Annoy等ANN庫,京東零售基于Faiss的Vearch也已經(jīng)在各自規(guī)模化業(yè)務場景中投入使用。

創(chuàng)業(yè)公司Zilliz從2018年開始布局做向量數(shù)據(jù)庫,2019年開源了Milvus,單獨作為一個品類進行研發(fā)創(chuàng)新。其做法比較明確:開源Milvus向量數(shù)據(jù)庫,持續(xù)運營積累大量社區(qū)開發(fā)者使用;在商業(yè)化方面,推出云端全托管數(shù)據(jù)庫服務Zilliz Cloud,并與Milvus形成插件化集成,與國產(chǎn)大模型進行對接。

不過,不同于2017年前后在行業(yè)風口和資本熱錢影響下成立的一批AI公司,一開始就瞄準向量數(shù)據(jù)庫創(chuàng)業(yè)賽道的企業(yè)其實寥寥無幾。即便Zilliz也并非是從創(chuàng)業(yè)之初錨定向量數(shù)據(jù)庫——Zilliz創(chuàng)始人星爵在去年9月與鈦媒體交流時曾解釋:“AI時代,數(shù)據(jù)處理的類型和計算體系架構(gòu)都發(fā)生了較大變化,但當時團隊對最終產(chǎn)品形態(tài)是什么,并不是很清晰。不斷交流的過程中,我們意識到企業(yè)對海量非結(jié)構(gòu)化數(shù)據(jù)管理的需求。”

總結(jié)起來,在向量數(shù)據(jù)庫的發(fā)展過程中,技術(shù)進展和創(chuàng)新起到了重要的推動作用。

首先在數(shù)據(jù)層面,向量作為一個新型數(shù)據(jù)處理單元,其數(shù)據(jù)量達到了一定規(guī)模,需要一個專用的管理系統(tǒng),對管理的復雜度如分布式、高可用性、數(shù)據(jù)的一致性和備份等要求也越來越高。

其次,數(shù)據(jù)庫系統(tǒng)的研究者和工程師們不斷改進和優(yōu)化向量數(shù)據(jù)庫的存儲引擎、索引結(jié)構(gòu)和查詢算法,提高了向量數(shù)據(jù)的存儲效率和查詢性能。

此外,隨著硬件技術(shù)的發(fā)展,如GPU、FPGA、ARM架構(gòu)芯片的應用,也為向量數(shù)據(jù)庫的性能提升帶來了新的機會。

這三點因素共同促使了向量數(shù)據(jù)庫系統(tǒng)的誕生——想要高效處理這些海量的向量數(shù)據(jù),就需要更細分、更專業(yè)的數(shù)據(jù)基礎設施,為向量構(gòu)建專門的數(shù)據(jù)庫處理系統(tǒng)。

現(xiàn)階段,客戶有必要替換嗎?

從產(chǎn)品層面講,如果傳統(tǒng)數(shù)據(jù)庫廠商不單獨研發(fā)向量數(shù)據(jù)庫,那么基本上會主張支持原生的向量詞嵌入和向量搜索引擎。

向量數(shù)據(jù)庫市場的陣營在ChatGPT影響之前就已經(jīng)在形成分化,既包括提供開源組件的Milvus、Vald、Weaviate、Qdrant、Vaspa、Vearch、AquilaDB、Marqo,到商業(yè)化服務產(chǎn)品Pinecone,再到大廠谷歌推出的Vertex AI匹配引擎,數(shù)據(jù)庫廠商Elastic和Redis基于自身提供的向量檢索功能等等。

這其實也表明了當前向量數(shù)據(jù)庫市場存在的兩種路線:一個是基于分析數(shù)據(jù)庫的向量化執(zhí)行引擎,英文是Vectorization,這是學術(shù)界2013年提出的名詞,如Clickhouse、Spark引擎,是一種新型的執(zhí)行方式,用于處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)如表單等,更多的是結(jié)構(gòu)化數(shù)據(jù)分析數(shù)據(jù)里面做并行執(zhí)行的一種方式,在新型的處理芯片上進行處理。

另一個則是推出向量數(shù)據(jù)庫(Vector Database),本質(zhì)上處理的是AI領域的一類新型數(shù)據(jù)類型,例如對多模數(shù)據(jù)的處理,相比其他的向量檢索技術(shù)在檢索速度和精準性上都有了一個很高的提升。

后者的做法也基本在幾家主流云廠商如亞馬遜云、阿里云上能夠看到,而這些云平臺應用市場也會提供給這些第三方向量數(shù)據(jù)庫企業(yè)進行托管。例如,阿里云開發(fā)的內(nèi)存數(shù)據(jù)庫Tair,在兼容Redis生態(tài)的同時,也具備向量檢索能力,實現(xiàn)緩存+向量二合一,已經(jīng)投入在電商等場景。

“如果你看好AI,你就可以看好向量數(shù)據(jù)庫。”2023年的大模型大火一段時間后,騰訊云數(shù)據(jù)庫團隊最終明確了這樣一個邏輯。

騰訊云會更傾向于倡導向量數(shù)據(jù)庫“專庫專用”的理念,并且認可這樣一個趨勢。騰訊云正式發(fā)布向量數(shù)據(jù)庫時,騰訊云數(shù)據(jù)庫副總經(jīng)理羅云這樣對鈦媒體解釋:“向量檢索技術(shù)確實不是今天才有,在此之前有像基于Faiss庫的單機檢索引擎,也有已有數(shù)據(jù)庫上外掛插件的形態(tài),還有的則是具備Purpose-built的獨立向量數(shù)據(jù)庫。”

在他看來,由于向量檢索是一個極消耗CPU和內(nèi)存資源的工作,當支撐的業(yè)務負載越來越大之后,之前這種傳統(tǒng)的插件形式就會面臨一定的挑戰(zhàn)。而獨立向量數(shù)據(jù)庫可以讓用戶更好地精細化管理大模型訓練時的資源成本和時間問題。此外,還由于客戶對私域數(shù)據(jù)的保護,不會放在共有云的大模型平臺上進行訓練,而是更愿意將私域數(shù)據(jù)存儲在向量數(shù)據(jù)庫中,當需要推理時就會將一部分信息傳遞給大模型作推理。云廠商提供的數(shù)據(jù)服務會更有競爭力。

據(jù)羅云所述,騰訊云自研的分布式向量數(shù)據(jù)庫核心引擎Olama,原名ElasticFaiss,最早于2019年4月進行孵化,過去幾年,Olama對開源架構(gòu)技術(shù)點持續(xù)優(yōu)化,以支撐越來越多的算法庫。

目前,處在探索期的向量數(shù)據(jù)庫依然充滿挑戰(zhàn):一是數(shù)據(jù)存儲和索引。由于向量數(shù)據(jù)通常具有高維度和大規(guī)模的特點,傳統(tǒng)的存儲和索引方法無法滿足其高效查詢的需求。二是查詢性能和計算復雜度。由于向量數(shù)據(jù)的特殊性質(zhì),相似性搜索和向量操作往往需要進行大量的計算和比較。三是數(shù)據(jù)質(zhì)量和準確性。向量數(shù)據(jù)中可能存在噪聲、缺失值和異常值等問題,這些問題會對數(shù)據(jù)的查詢和分析結(jié)果產(chǎn)生不良影響等。

相較于大模型的高調(diào)火熱,向量數(shù)據(jù)庫仍然靠近底層,并沒有達到真正意義上的全民皆知,向量數(shù)據(jù)庫更多時候是需要集成到其他平臺或云上被銷售。

而從需求端看,過去,向量檢索還主要聚焦于機器學習和數(shù)據(jù)挖掘領域,通過高效的數(shù)據(jù)存儲和查詢工具,使得相似性搜索和聚類分析成為可能。在推薦系統(tǒng)中,向量數(shù)據(jù)庫助力個性化推薦,根據(jù)用戶興趣和商品相似性,呈現(xiàn)給用戶最貼切的推薦結(jié)果。

如今,在ChatGPT爆火之后,前來咨詢向量數(shù)據(jù)庫的客戶也絡繹不絕,并且涌現(xiàn)出了一批新的中小型開發(fā)者。Zilliz團隊的一個直觀感受是,目前大家主要的競爭會集中在產(chǎn)品功能設計和易用性上。如Midjourey只有11人團隊,這類小團隊用戶業(yè)務更加聚焦于大模型應用,這與此前大數(shù)據(jù)量的互聯(lián)網(wǎng)B端用戶有明顯需求的不同。

一位售前人員解釋,還是要根據(jù)客戶的業(yè)務屬性,需要的數(shù)據(jù)庫系統(tǒng)是否解決的是面向AI應用的部分。

無論怎樣,外界正在意識到向量數(shù)據(jù)庫作為一種新型數(shù)據(jù)庫存在的價值。不過,理解大模型只是AI的其中一種形態(tài),泛化能力變強,場景通用性也更強,以大模型助力AI落地變得更順暢的過程中,還有很多可優(yōu)化空間。

(本文首發(fā)鈦媒體APP 作者 | 楊麗,編輯 | 蓋虹達)

本文系作者 TechHorizon 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-04-01 23:02

國內(nèi)期貨主力合約大面積飄綠,乙二醇、低硫燃料油(LU)跌超4%

2026-04-01 23:01

宜美智向港交所提交上市申請書

2026-04-01 23:00

XREAL向港交所提交上市申請

2026-04-01 22:59

伊朗以色列同時大規(guī)?;ヒu

2026-04-01 22:54

波音漲逾5%,連續(xù)2日大漲

2026-04-01 22:54

美國制造業(yè)擴張速度創(chuàng)2022年來最高,伊朗戰(zhàn)爭推動投入成本躍升

2026-04-01 22:50

美國鋁業(yè)公司股價短線拉升,一度漲5.2%

2026-04-01 22:40

馬克龍說法國不參與對伊軍事打擊

2026-04-01 22:37

圣邦微電子再次遞表港交所

2026-04-01 22:36

手機回收價出現(xiàn)下跌,舊手機回收價一周跌百元

2026-04-01 22:34

美股存儲板塊持續(xù)走高,美光科技漲8.18%

2026-04-01 22:31

美國能源信息署:美國上周原油庫存增加545.1萬桶,遠高于市場預期

2026-04-01 22:24

特朗普成為美國歷史首位出席最高法院庭審的在任總統(tǒng)

2026-04-01 22:15

克羅地亞決定釋放儲備柴油

2026-04-01 22:14

俄羅斯表示將繼續(xù)推進火箭核發(fā)動機研究

2026-04-01 22:11

Flagship Pioneering與亞馬遜云科技合作,加速藥物發(fā)現(xiàn)與生命科學創(chuàng)新

2026-04-01 22:08

德國回應特朗普“退約”威脅,稱將繼續(xù)支持北約

2026-04-01 22:01

美國3月ISM制造業(yè)指數(shù)為52.7,預估為52.3

2026-04-01 21:58

伊朗回應特朗普?;鹧哉摚Q霍爾木茲海峽不對敵開放

2026-04-01 21:55

美股存儲概念股延續(xù)強勢上漲,西部數(shù)據(jù)漲超9%

掃描下載App