美東時間12月17日,數(shù)據(jù)分析和AI平臺巨頭Databricks宣布將完成100億美元J輪融資,公司估值將從此前的430億美元攀升至620億美元。本輪融資由Thrive Capital領(lǐng)投,多家知名投資機構(gòu)參與本輪融資,包括Andreessen Horowitz、DST Global、GIC、Insight Partners和WCM Investment Management作為共同領(lǐng)投方。此外,安大略教師退休金計劃、ICONIQ Growth、MGX、Sands Capital和Wellington Management也參與其中。該輪融資將用于投資于新的AI產(chǎn)品、收購以及大幅擴張其國際市場業(yè)務(wù)。

截至目前,參與Databricks融資的投資方已超過63家,融資總額已超過140億美元。

過去十年,初創(chuàng)公司從風(fēng)險融資到最終上市或被收購的周期,已經(jīng)在拉長。分析個中原因,一方面在于近些年政府對大型客戶公司采取的反壟斷審查壓制了企業(yè)收購路徑,另一方面多數(shù)軟件股票受到高利率以及宏觀經(jīng)濟的影響普遍表現(xiàn)不佳,包括同樣是大數(shù)據(jù)公司的Snowflake市值曾達到710億美金,如今已跌去20%。不過,還有部分分析認為,明年特朗普的上任將推動美國科技股上市和交易市場的打開。

值得關(guān)注的是,該輪融資還將用于回購現(xiàn)任和前任員工持有的股份,這無疑對于Databricks的早期員工是一次重大利好。

此前路透社援引消息人士報道稱,這輪融資幾乎超額認購了兩倍,超過公司最初的目標。更早一個月前,Databricks就被曝光進行新一輪至少50億美元的現(xiàn)金融資,預(yù)計估值550億美元。目前來看,該輪融資比預(yù)計的要高出許多。

該輪融資目前成為歷史上最大的風(fēng)險投資輪之一。另一位消息人士補充說,除了股權(quán)融資外,Databricks還在就籌集45億美元的債務(wù)融資進行談判,其中包括直接貸款人提供的25億美元定期貸款。

Databricks成立于2013年,總部位于舊金山,由7位數(shù)據(jù)科學(xué)家聯(lián)手創(chuàng)立。分析在融資數(shù)十輪之后依然能獲得如此高額融資的背后,其實得益于Databricks自身快速發(fā)展的勢頭。按公司估值在620億美元,預(yù)計以每股92.50美元的價格交易。這個價格在一些投資者眼中被認為是一筆劃算的交易。

盡管該公司尚未盈利,但這輪融資將標志著其估值的大幅上升。此外,該公司計劃將部分資金用于從早期員工手中回購到期的限制性股票,并支付相關(guān)的稅收成本。作為交易的一部分,Databricks還計劃向參與本輪融資的投資者發(fā)行優(yōu)先股。這意味著Databricks此次籌集巨額資金以解決即將到期的員工期權(quán)問題,而不是增加其資產(chǎn)負債表。事實上,在此之前金融支付公司Stripe也有類似做法,該公司去年以500億美金估值獲得了65億美元融資。

過去幾年,Databricks就曾頻繁被追問上市準備情況,但直至如今,Databricks一直沒有給出明確的時間表。其實從競爭對手之一的Snowflake可見端倪。Snowflake于2020年9月上市,其股價在最初一年里曾突破390美元,但如今股價與最高水平相比已跌去56%。另一家數(shù)據(jù)管理公司Confluent的股價基本在26美元徘徊,遠低于上市之初的36美元。而近段時間,軟件股票受到高利率以及宏觀經(jīng)濟的影響普遍表現(xiàn)不佳。

外部分析,目前市場環(huán)境對于初創(chuàng)公司IPO并不友好。Databricks通過融資,減少員工套現(xiàn)壓力,也進一步降低了未來IPO的緊迫或必要性。

不過,Databricks首席執(zhí)行官Ali Ghodsi在11月20日的一次會議上還是透露了一些信息,他表示正在為Databricks未來十年甚至二十年的成功而布局,而不是為IPO而布局,“如果上市,最早也要等到明年年中。或許明年就有可能。”

至于潛在的收購,Ghodsi表示他正在尋找專注于AI的初創(chuàng)公司,以尋找技術(shù)和人才。

Databricks預(yù)計,截至明年1月的2024財年營收將超過30億美元,第三季度銷售額同比增長60%以上,且預(yù)計在第四季度收入運行率將超過30億美元,實現(xiàn)“正向自由現(xiàn)金流”。此前,Databricks還表達下一財年預(yù)計收入為38億美元。

客戶層面,Databricks服務(wù)了超過一萬家企業(yè)客戶,并且其中超過500家客戶每年付費金額超過百萬美元。

頂級風(fēng)投對諸如Databricks一樣的潛力股,正不余遺力地追加投資,并支持企業(yè)保持更長時間的私有化。據(jù)CB Insights統(tǒng)計,今年有至少三分之一的風(fēng)險投資都投給了AI板塊初創(chuàng)公司。比如最近兩個月內(nèi),OpenAI以1650億美元的估值籌集了65億美元,馬斯克的xAI公司以400億美元估值籌集了60億美元。投資容易,變現(xiàn)難,亦成為當下AI風(fēng)險投資者的窘境。

什么造就了Databricks的今天

鈦媒體此前分析Databricks的成功離不開三點優(yōu)勢:一是產(chǎn)品理念上始終堅持的統(tǒng)一架構(gòu)模式,面向數(shù)據(jù)科學(xué)、人工智能領(lǐng)域的不斷探索;二是在開源(COSS)運營手段上的推動和北美環(huán)境的獨特優(yōu)勢,有龐大且忠誠的開發(fā)者社區(qū);三是基于按訂閱制付費的SaaS模式,且面向多云環(huán)境提供服務(wù)。

2023年,Databricks開源了其首個大語言模型dolly 2.0,并為后續(xù)推出大模型做了一系列鋪墊。同年,Databricks以以13億美元收購大模型初創(chuàng)公司MosaicML。通過對MosaicML的技術(shù)和團隊整合,MosaicML被全面整合進Lakehouse產(chǎn)品中。

今年3月,Databricks發(fā)布了一款132B混合專家模型DBRX,該大模型由內(nèi)部Mosaic Research團隊開發(fā),其人員一部分就來自于此前對MosaicML團隊的收編而來。據(jù)Databricks透露,目前DBRX性能在多個標準基準測試中超過了OpenAI的GPT-3.5。DBRX完全基于Databricks平臺開發(fā),利用Unity Catalog等工具進行數(shù)據(jù)治理、Apache Spark進行數(shù)據(jù)處理以及Mosaic AI Training進行模型訓(xùn)練和微調(diào)。正是這種深度集成帶來解決方案的新價值,客戶可以通過API訪問DBRX,從而無縫集成到現(xiàn)有工作流程和應(yīng)用程序中。

Databricks指出,DBRX可讓客戶以更低的成本構(gòu)建、訓(xùn)練和定制模型,而無需依賴一小部分閉源模型,如ChatGPT和GPT-3.5,后者基于私有模型權(quán)重和源代碼,而開源模型如LlaMa、Dolly和DBRX則具有公開可用的源代碼和模型權(quán)重。為此,企業(yè)開發(fā)人員可以查看模型架構(gòu)和訓(xùn)練數(shù)據(jù)并定制源代碼,或在Databricks提供的檢查點上繼續(xù)訓(xùn)練,這種靈活性使組織能夠根據(jù)企業(yè)特定需求定制模型的功能。

DBRX已集成到Databricks的生成式AI應(yīng)用中,并且已經(jīng)顯示出良好的效果。例如在SQL查詢生成和優(yōu)化等應(yīng)用中,DBRX顯示出了比其他先進模型包括GPT 3.5、Claude 3、Llama 2和Grok-1等更有競爭力的性能表現(xiàn)。

如果說Databricks借了生成式AI的東風(fēng)不假。但是多年以來Databricks在AI和數(shù)據(jù)科學(xué)領(lǐng)域也在持續(xù)投入和布局。在開源界多款項目霸榜開源榜單,包括分布式計算框架Apache Spark,數(shù)據(jù)湖表格式Delta Lake。

Databricks的產(chǎn)品目前包括三大板塊:數(shù)據(jù)湖倉、數(shù)據(jù)工具和AI工具。

其核心產(chǎn)品Lakehouse(湖倉一體),就是基于Apache Spark、Delta Lake、MLflow等開源組件構(gòu)建而來。其中,數(shù)據(jù)湖表格式Delta Lake,側(cè)重于為Apache Spark和其他大數(shù)據(jù)引擎提供可伸縮的ACID事務(wù),讓用戶可以基于HDFS和云存儲構(gòu)建數(shù)據(jù)湖;開發(fā)和維護AI生命周期管理開源平臺MLflow,用于進行機器學(xué)習(xí)模型的部署和訓(xùn)練;數(shù)據(jù)分析工具Koalas,可讓使用Pandas進行編程的數(shù)據(jù)科學(xué)家直接切換到Spark上,用于大型分布式集群應(yīng)用;Unity Catalog,用于不同企業(yè)間數(shù)據(jù)和AI負載存放的可互操目錄,用于管理和安全訪問存儲在Delta中的數(shù)據(jù)。

當數(shù)據(jù)平臺也來卷AI大模型

今年6月,Databricks宣布高價收購與其在表格式領(lǐng)域一直存在競爭的初創(chuàng)公司Tabular。從后續(xù)市場的一系列動作來看,此次收購顯然對Snowflake和Confluent等競爭對手帶來了新的壓力。

Databricks的Delta Lake和Apache Iceberg、Apache Hudi被認為新一代數(shù)據(jù)湖在開源表格式應(yīng)用上的“三劍客”。三大開源項目各自有其發(fā)展的歷史背景及優(yōu)勢特征。此前,鈦媒體APP獲取的一份2022年3月份的有關(guān)GitHub存儲庫的貢獻數(shù)據(jù)顯示,目前Netflix、Apple、AWS等主要基于Apache Iceberg,國內(nèi)如阿里巴巴、字節(jié)跳動、螞蟻、中移蘇研、華為、騰訊等企業(yè)則主要熱衷于Hudi,而對Delta Lake的貢獻維護,81.3%都來自于Databricks。

2021年,Iceberg和Hudi的主要創(chuàng)始人相繼創(chuàng)立了其商業(yè)化初創(chuàng)公司,即Tabular和Onehouse。收購Tabular,將意味著Databricks將間接控制Iceberg,而Snowflake、AWS、Netflix、蘋果等公司也是Iceberg的主要貢獻者,此舉亦有助于強化其在開源數(shù)據(jù)湖存儲標準的地位。過去,數(shù)據(jù)湖存儲的弱點是治理,開源項目多導(dǎo)致治理復(fù)雜,如果能從技術(shù)層面實現(xiàn)統(tǒng)一,也將極大降低用戶使用門檻。

同時,Iceberg往往用于AI應(yīng)用數(shù)據(jù)管理,其重要性日益凸顯。可以協(xié)調(diào)跨不同云數(shù)據(jù)存儲服務(wù)(例如Amazon S3、Google Cloud Storage和Microsoft Azure Blob Storage)的數(shù)據(jù)移動,從而建立數(shù)據(jù)連接,并且能夠?qū)?shù)據(jù)與Apache Spark、Flink和Trino等開源分析引擎連接起來。

Snowflake近年以來其實也經(jīng)歷了一段艱難時刻,今年3月前首席執(zhí)行官Frank Slootman的辭職退休,其市值曾一夜之間縮水近200億美元。Snowflake需要在生成式AI領(lǐng)域快速找準定位。

幾乎亦步亦趨的是,Snowflake今年4月同樣發(fā)布了其開源大模型Arctic,以4800億參數(shù)MoE架構(gòu)試圖擊敗Databricks的DBRX。

而就在Databricks收購Tabular之后,Snowflake宣布開源其元數(shù)據(jù)目錄Polaris Catalog,專為Iceberg而設(shè)計,用于支持Iceberg基于REST的API,解決元數(shù)據(jù)目錄的潛在鎖定問題。該項目Snowflake客戶以Iceberg格式處理自己存儲中的數(shù)據(jù),同時仍然受益于Snowflake的易用性,性能和統(tǒng)一治理。不過其內(nèi)置治理解決方案Horizon仍是閉源的,包括基于角色的訪問控制和合規(guī)性等高價值治理功能。

為應(yīng)對這一市場策略的轉(zhuǎn)變,隨即Databricks宣布開源了Unity Catalog,包括開源整個元數(shù)據(jù)目錄。

結(jié)合ETR截至今年7月對1800名企業(yè)用戶的調(diào)研顯示,60%使用Databricks的用戶同樣也會安裝Snowflake的軟件,40%使用Snowflake的用戶也會安裝Databricks的軟件。也就是說,對于客戶而言,他們往往會用上多款大數(shù)據(jù)工具,無論是Snowflake還是Databricks均有各自使用場景及優(yōu)勢。

不久前,《新經(jīng)濟學(xué)人》影響力研究發(fā)現(xiàn),僅22%的企業(yè)認為其IT基礎(chǔ)設(shè)施已為AI做好準備。45%的數(shù)據(jù)科學(xué)家在構(gòu)建企業(yè)大模型應(yīng)用時并不具備企業(yè)專屬數(shù)據(jù),這導(dǎo)致模型缺乏質(zhì)量、治理和評估能力。同時,40%的受訪者承認其組織的數(shù)據(jù)和AI治理不足,一半的數(shù)據(jù)工程師表示,治理比其他任何事情都更耗時,許多從業(yè)者和高管指出,統(tǒng)一治理是解鎖企業(yè)AI的關(guān)鍵。

無論如何,這都表明了現(xiàn)如今技術(shù)迭代的速度之快,而隨著人工智能的發(fā)展,這種變化速度可能會更快。有一件事情是值得肯定的,數(shù)據(jù)治理比以往任何時候都更加重要。

嗅到AI市場的增長空間,不滿足于單純做大數(shù)據(jù)服務(wù)的Databricks,也正努力轉(zhuǎn)型成為一家人工智能公司。這將為日后上市維持市值增長提供更多保障;不過,在拓展更大市場過程中,Databricks從業(yè)務(wù)模式到技術(shù)模式也還有一些挑戰(zhàn)。

一位從事數(shù)據(jù)存儲和分析的資深技術(shù)專家此前與鈦媒體交流時對湖倉市場的判斷是:“Databricks只做云,沒有任何KA大客戶經(jīng)驗,從中國現(xiàn)階段而言,使用湖倉產(chǎn)品的客戶首先肯定不是中小客戶,后者還仍不具備該應(yīng)用方式,如足夠多的數(shù)據(jù)、多形態(tài)的數(shù)據(jù)、需要各種數(shù)據(jù)、需要大量分析。二是中國企業(yè)客戶,除了需要湖倉產(chǎn)品,還需要廠商為其梳理整個數(shù)據(jù)治理過程。技術(shù)上沒那么簡單,數(shù)據(jù)安全性也同樣需要關(guān)注。”(本文首發(fā)于鈦媒體APP,作者 | 楊麗,編輯 | 蓋虹達)

本文系作者 TechHorizon 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

12:28

摩根大通和高盛向?qū)_基金提供做空私募信貸的工具

12:26

OpenAI再出手:計劃收購Python工具初創(chuàng)公司Astral

12:18

長達一年看空后,摩根大通宣布:戰(zhàn)術(shù)性轉(zhuǎn)為看漲美元

12:13

消息人士:馬斯克團隊采購光伏設(shè)備預(yù)計將在5月第一周發(fā)貨

12:11

也門胡塞武裝稱可能封鎖曼德海峽

12:10

港股午評:科指大跌1.71%,小米、阿里領(lǐng)跌,黃金股反彈

11:55

高盛:預(yù)計英國央行今年不降息,明年逐步降至3%

11:54

星網(wǎng)宇達:因投資收益列報錯誤收監(jiān)管函

11:53

港股黃金股反彈,靈寶黃金、紫金黃金國際漲超7%

11:48

工商銀行提醒做好貴金屬市場風(fēng)險防控

11:46

港股光伏太陽能板塊走強,鈞達股份拉升漲超10%

11:45

特斯拉計劃采購中國光伏設(shè)備?企業(yè)回應(yīng):確有此事

11:43

A股午評:創(chuàng)業(yè)板指半日漲3.3%刷新年內(nèi)新高,光伏、CPO概念股爆發(fā)

11:31

島上供電能力超4倍增長,220千伏潿洲島跨海聯(lián)網(wǎng)工程投運

11:30

創(chuàng)業(yè)板指刷新階段高點

11:23

儲能概念持續(xù)走強,首航新能、德業(yè)股份漲停續(xù)創(chuàng)歷史新高

11:19

創(chuàng)業(yè)板指漲逾3%,寧德時代等權(quán)重股大幅走高

11:15

中國人均體育場地面積達3.11平方米

11:14

美國白宮據(jù)稱不會實施原油出口禁令

11:12

漲勢持續(xù),深圳華強北16G內(nèi)存半年多漲700元左右

掃描下載App