拓?cái)?shù)派創(chuàng)始人兼CEO 馮雷(Ray Von)
鈦媒體獲悉,拓?cái)?shù)派(OpenPie)不久前發(fā)布了全新產(chǎn)品虛擬數(shù)倉(cāng)PieCloudDB「云上云」版(CoC:Cloud on Cloud),并正式上線基于阿里云構(gòu)建公共云數(shù)據(jù)倉(cāng)庫(kù)服務(wù)。
據(jù)創(chuàng)始人兼CEO馮雷所述,基于數(shù)倉(cāng)虛擬化打造的旗艦產(chǎn)品PieCloudDB,是對(duì)行業(yè)頂級(jí)數(shù)據(jù)庫(kù)的抽象思考和設(shè)計(jì)原則復(fù)用為技術(shù)路線,實(shí)現(xiàn)了分析型數(shù)據(jù)數(shù)倉(cāng)上云虛擬化。
拓?cái)?shù)派成立于2021年,創(chuàng)立之初便獲得頭部產(chǎn)業(yè)基金連續(xù)兩筆天使輪投資,并于2022年6月再度獲得新一輪戰(zhàn)略融資,其核心產(chǎn)品PieCloudDB是面向企業(yè)級(jí)的云原生虛擬數(shù)倉(cāng)。
如今過(guò)去兩年,拓?cái)?shù)派已相繼發(fā)布PieCloudDB的企業(yè)版/社區(qū)版(基于私有云部署)、軟硬件一體機(jī)、「云上云」版本(首先基于阿里云構(gòu)建公共云數(shù)倉(cāng))。
拓?cái)?shù)派為此給出了數(shù)倉(cāng)虛擬化技術(shù)理念的完整演繹。據(jù)介紹,團(tuán)隊(duì)將多個(gè)數(shù)倉(cāng)整合到一個(gè)高可用的云虛擬數(shù)倉(cāng),以打通多云數(shù)據(jù)管道,數(shù)據(jù)計(jì)算資源按需擴(kuò)縮容,同時(shí)可計(jì)算數(shù)據(jù)空間實(shí)現(xiàn)了數(shù)量級(jí)增加,數(shù)倉(cāng)的管理復(fù)雜度和成本均得到降低。這個(gè)過(guò)程中使用了存算分離、eMPP(elastic Massive Parallel Processing,彈性大規(guī)模并行計(jì)算)、服務(wù)器無(wú)感知及TDE等多項(xiàng)核心技術(shù)。
PieCloudDB數(shù)倉(cāng)虛擬化四大核心技術(shù)架構(gòu):
云原生存算分離架構(gòu):運(yùn)用元數(shù)據(jù)-計(jì)算-數(shù)據(jù)分離的三層架構(gòu),實(shí)現(xiàn)云上存儲(chǔ)資源與計(jì)算資源的獨(dú)立管理。云上計(jì)算資源可彈性分配,有查詢(xún)計(jì)算任務(wù)的時(shí)候按需啟動(dòng),按照使用時(shí)間和規(guī)模計(jì)算成本。
eMPP分布式專(zhuān)利技術(shù):在云上,PieCloudDB利用eMPP架構(gòu),實(shí)現(xiàn)多集群并發(fā)執(zhí)行任務(wù)。企業(yè)可靈活進(jìn)行擴(kuò)縮容,隨著負(fù)載的變化實(shí)現(xiàn)高效的伸縮,輕松應(yīng)對(duì)PB級(jí)海量數(shù)據(jù)。
全新的存儲(chǔ)「簡(jiǎn)墨」和緩存架構(gòu)設(shè)計(jì):在計(jì)算層,各個(gè)計(jì)算節(jié)點(diǎn)針對(duì)元數(shù)據(jù)和用戶(hù)數(shù)據(jù)都設(shè)計(jì)了多層緩存結(jié)構(gòu),避免網(wǎng)絡(luò)延遲和數(shù)據(jù)移動(dòng),提高計(jì)算效率,保證用戶(hù)的實(shí)時(shí)性需求。針對(duì)底層對(duì)象存儲(chǔ)設(shè)計(jì)了高效的文件格式,可在節(jié)省網(wǎng)絡(luò)請(qǐng)求的同時(shí)提高計(jì)算效率。
全新的優(yōu)化器「達(dá)奇」:可更智能高效地生成統(tǒng)計(jì)信息,并生成更高效的查詢(xún)計(jì)劃,達(dá)奇優(yōu)化器支持聚集下推,預(yù)計(jì)算,Block Skipping等高級(jí)特性,全面滿(mǎn)足各種復(fù)雜的分析查詢(xún)需求。
云原生數(shù)據(jù)庫(kù)/數(shù)倉(cāng)技術(shù)近些年在概念上非常熱,但怎么實(shí)現(xiàn)云原生的彈性?xún)?yōu)勢(shì)、存算分離,各家廠商的產(chǎn)品成熟度和技術(shù)積累難免有所差異。從產(chǎn)品迭代周期和研發(fā)復(fù)雜性上看,拓?cái)?shù)派的技術(shù)路徑難度頗高。據(jù)了解,團(tuán)隊(duì)已經(jīng)進(jìn)行了百萬(wàn)行代碼的推倒重寫(xiě)。
以eMPP為例,PC版分析型數(shù)據(jù)庫(kù)所采用的傳統(tǒng)MPP技術(shù),在遇到云端海量數(shù)據(jù)時(shí)會(huì)存在比較明顯的缺陷:如拓展困難、升級(jí)部署難,以及大量的數(shù)據(jù)孤島。eMPP則基于云計(jì)算架構(gòu)的彈性并行計(jì)算,存儲(chǔ)和計(jì)算各自作為兩個(gè)獨(dú)立變量,各自在云里彈性伸縮,同時(shí)可以實(shí)現(xiàn)瞬間擴(kuò)縮容。此外,用戶(hù)對(duì)于云中數(shù)據(jù)同時(shí)開(kāi)啟多個(gè)集群進(jìn)行數(shù)據(jù)計(jì)算,可以持續(xù)將所有數(shù)據(jù)在云中存儲(chǔ),為已有的應(yīng)用和未來(lái)的應(yīng)用真正實(shí)現(xiàn)數(shù)據(jù)共享。
在媒體溝通會(huì)上,拓?cái)?shù)派CTO郭罡告訴鈦媒體,“團(tuán)隊(duì)最開(kāi)始在單機(jī)版本上進(jìn)行原型創(chuàng)新,支持多節(jié)點(diǎn)共享元數(shù)據(jù)和用戶(hù)數(shù)據(jù),后來(lái)才支持分布式集群,相當(dāng)于在Postgres上重新實(shí)現(xiàn)了一個(gè)新的分析型數(shù)據(jù)庫(kù)(OLAP)。”
從產(chǎn)品迭代節(jié)奏上,他還指出,“并不是因?yàn)門(mén)eradata退出中國(guó),而是目前國(guó)內(nèi)企業(yè)客戶(hù)還是會(huì)有對(duì)一體機(jī)的場(chǎng)景需求,未來(lái)也會(huì)跟更多的國(guó)產(chǎn)硬件廠商進(jìn)行適配。”“目前來(lái)看,基于私有化部署的業(yè)務(wù)占比會(huì)更高,但未來(lái)3~5年內(nèi)還是希望將公有云的業(yè)務(wù)收入進(jìn)行持續(xù)提升。”
另外值得一提的是,馮雷為原Pivotal(中國(guó))創(chuàng)始人兼總經(jīng)理,在此之前,Pivotal就已經(jīng)是一家非常成功的技術(shù)公司,其支持運(yùn)營(yíng)的開(kāi)源數(shù)據(jù)庫(kù)Greenplum、PaaS平臺(tái)Cloud Foundry和Java開(kāi)發(fā)的Spring框架在業(yè)內(nèi)赫赫有名,云原生(cloud native)一詞最早起也源于Pivotal公司。
談及Greenplum的創(chuàng)新邏輯,郭罡明確指出:“團(tuán)隊(duì)并沒(méi)有沿襲GP技術(shù)棧進(jìn)行創(chuàng)新,而是進(jìn)行了數(shù)據(jù)庫(kù)內(nèi)核的重構(gòu);但另一方面,團(tuán)隊(duì)保留了GP的部分優(yōu)勢(shì),通過(guò)GP生態(tài)進(jìn)行更廣泛的用戶(hù)連接。”
在鈦媒體看來(lái),從以Teradata為代表的一體機(jī)MPP數(shù)據(jù)庫(kù)產(chǎn)品,到Greenplum和Vertica等基于PC的MPP數(shù)據(jù)庫(kù),再到如今企業(yè)所倡導(dǎo)的云原生數(shù)據(jù)庫(kù)/數(shù)倉(cāng),盡管市場(chǎng)對(duì)新一代數(shù)據(jù)技術(shù)棧的關(guān)注在近些年十分火熱,但國(guó)產(chǎn)數(shù)據(jù)庫(kù)產(chǎn)業(yè)的整體資金投入、人才積累以及實(shí)際應(yīng)用案例的深度仍有待提高。
作為一家初創(chuàng)公司,拓?cái)?shù)派正式組織研發(fā)與市場(chǎng)力量不過(guò)兩年,有其發(fā)展的優(yōu)勢(shì)與契機(jī)。
(本文首發(fā)鈦媒體APP 作者 | 楊麗)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論