GMI Cloud亞太區(qū)總裁King Cui


“與互聯(lián)網(wǎng)技術(shù)和移動(dòng)互聯(lián)網(wǎng)技術(shù)相比,如今的GPT4 / ChatGPT影響的用戶(hù)還非常有限,AI技術(shù)還遠(yuǎn)遠(yuǎn)未到‘技術(shù)普惠點(diǎn)’,我們正處在‘1995年的互聯(lián)網(wǎng)’時(shí)代。”

12月7日,GMI Cloud亞太區(qū)總裁King Cui出席參加了2024T-EDGE創(chuàng)新大會(huì)暨鈦媒體財(cái)經(jīng)年會(huì)的平行論壇EDGE Founders Demo Day,在現(xiàn)場(chǎng)分享了他們?cè)贏I出海大潮中的趨勢(shì)洞察,并介紹了GMI Cloud在GPU云平臺(tái)構(gòu)建方面的探索。

以下為King 演講精華:

AI出海大潮與算力需求

King Cui將云計(jì)算的發(fā)展分為三個(gè)階段,每個(gè)階段都標(biāo)志著技術(shù)和社會(huì)的一次重大飛躍。

圖片來(lái)源:網(wǎng)絡(luò)

AI推動(dòng)了云計(jì)算的發(fā)展。然而,在這個(gè)AI時(shí)代,AI企業(yè)在全球的發(fā)展將是一個(gè)確定性趨勢(shì),未來(lái)三年將進(jìn)入高速發(fā)展階段。AI技術(shù)的發(fā)展速度和對(duì)人類(lèi)生活的影響日益增強(qiáng),盡管AI 技術(shù)的發(fā)展處于早期階段,但已經(jīng)展現(xiàn)出巨大的潛力和機(jī)會(huì)。截止至2024年8月,全球AI WEB產(chǎn)品總數(shù)共1717個(gè),其中中國(guó)AI WEB產(chǎn)品數(shù)量280個(gè),出海AI WEB 產(chǎn)品數(shù)量95個(gè)。也就是說(shuō),有34%的AI產(chǎn)品從一開(kāi)始的定位就是全球化。

中國(guó) AI 企業(yè)在海外市場(chǎng)的布局正在加速。然而,機(jī)會(huì)與挑戰(zhàn)并存,在“AI三要素”(數(shù)據(jù)、算法和算力)中,算力——因其高昂的硬件成本和穩(wěn)定運(yùn)維的高難度,都是一個(gè)初創(chuàng)AI企業(yè)沒(méi)有能力去自己承擔(dān)的核心生產(chǎn)資料。

目前在AI出海過(guò)程中,以算力為中心的生產(chǎn)矛盾逐漸增多。具體矛盾主要表現(xiàn)在以下幾個(gè)方面:

1、國(guó)內(nèi)高端算力資源不足,導(dǎo)致業(yè)務(wù)進(jìn)展緩慢;

2、AI Infra的建設(shè)經(jīng)驗(yàn)不足,軟件和硬件基礎(chǔ)設(shè)施構(gòu)建需消耗大量時(shí)間及經(jīng)濟(jì)成本;

3、供應(yīng)商(機(jī)房、能源、設(shè)備等)可靠性、穩(wěn)定性難保障,選型困難。

而所有上述問(wèn)題產(chǎn)生的直接結(jié)果就是——AI Infra穩(wěn)定性不足,導(dǎo)致公司承擔(dān)了更多的經(jīng)濟(jì)以及時(shí)間成本。

以Meta為例, 其披露的報(bào)告顯示,為期54天的預(yù)訓(xùn)練階段中,總共出現(xiàn)了466次工作中斷,其中47次是計(jì)劃內(nèi)的自動(dòng)維護(hù),419 次是意外的,且大部分都來(lái)自硬件問(wèn)題,GPU又是最多的,占了其中的 58.7%。

然而,維持AI Infra層的穩(wěn)定性并不是一件簡(jiǎn)單的事情。所以,這就意味著我們需要在組網(wǎng)、硬件、軟件、工程化等方面做大量工作,以減少GPU的掉卡率,保持任務(wù)的連續(xù)性,最大化GPU的使用效率!

很多AI企業(yè)在選擇Infra團(tuán)隊(duì)的時(shí)候,優(yōu)先考慮的往往是單價(jià)最低的GPU。但其實(shí),GPU集群的穩(wěn)定性才是更為重要的考慮因素。穩(wěn)定性越高,模型訓(xùn)練、研發(fā)整體成本才會(huì)下降。

所以,選擇具有軟件加持和極強(qiáng)運(yùn)營(yíng)能力的云平臺(tái),一定比單純選擇價(jià)格低的GPU硬件更具性?xún)r(jià)比。

GMI Cloud的解決方案

作為一個(gè)全棧AI應(yīng)用平臺(tái),GMI Cloud在GPU硬件架構(gòu)層和IaaS層擁有完全自研和掌控的硬件和云平臺(tái)。在Iaas層GMI Cloud會(huì)基于硬件構(gòu)建自己的Cloud云平臺(tái),把計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)這些能力通過(guò)API的方式更好地提供給Paas層的客戶(hù)。而在硬件層GMI Cloud會(huì)提供高端的GPU服務(wù)器,包括高速存儲(chǔ)和高速網(wǎng)絡(luò)能力。

圖片來(lái)源:網(wǎng)絡(luò)

GMI Cloud致力于支持AI應(yīng)用開(kāi)發(fā)者,提供高穩(wěn)定性的GPU集群,以提高AI應(yīng)用的研發(fā)效率和產(chǎn)品競(jìng)爭(zhēng)力。

在Cluster Engine層面,GMI Cloud的Cluster Engine是一個(gè)端到端的全棧AI應(yīng)用平臺(tái),從底層GPU硬件架構(gòu)層到應(yīng)用層,提供統(tǒng)一的資源管理和調(diào)度。GMI Cloud 通過(guò)Kubernetes和HPC  Slurm開(kāi)展工作。GMI Cloud將Slurm應(yīng)用到容器化中,實(shí)現(xiàn)硬件資源(尤其是GPU資源)像任務(wù)一樣靈活調(diào)度和分配,并由云集群引擎統(tǒng)一管理,滿(mǎn)足AI和HPC的資源需求。

圖片來(lái)源:AI生成

除了軟件能力,“驗(yàn)證體系”也是保證用戶(hù)體驗(yàn)關(guān)鍵因素之一。GMI Cloud具有獨(dú)特的雙驗(yàn)證體系。作為NCP(Nvidia Cloud Partner),GMI Cloud的集群設(shè)計(jì)要首先通過(guò)經(jīng)過(guò)Nvidia認(rèn)證,從一開(kāi)始構(gòu)建集群的時(shí)候,構(gòu)建方案就需要Nvidia review。GMI的集群構(gòu)建完畢之后,英偉達(dá)會(huì)進(jìn)行再次的check,形成一個(gè)雙重的Nvidia認(rèn)證體系。另一方面,GMI Cloud在給客戶(hù)構(gòu)建私有集群之前,自己也會(huì)對(duì)于整個(gè)硬件和系統(tǒng)做測(cè)試。包括單機(jī)和跨機(jī)的這種分布式模型的訓(xùn)練,GMI Cloud會(huì)做一些壓力和功能測(cè)試。確保這個(gè)集群交給客戶(hù)是完全可以運(yùn)行的。在這套雙驗(yàn)證體系的加持之下,GMI Cloud可以保證交付給客戶(hù)的集群是一個(gè)完全可用的狀態(tài)。

圖片來(lái)源:AI生成

云服務(wù)不可能說(shuō)永遠(yuǎn)不出問(wèn)題,但是GMI Cloud會(huì)關(guān)注一旦出現(xiàn)問(wèn)題,響應(yīng)速度是否足夠快,對(duì)問(wèn)題的定位是否足夠快,集群的恢復(fù)是否足夠快。

GMI Cloud與GPU供應(yīng)商、IDC合作伙伴間共筑了三角合作的關(guān)系,為客戶(hù)提供更高水平的服務(wù)、更貼近源頭的問(wèn)題追溯。GMI Cloud提供24x7x365的全年全天候的監(jiān)控和支持服務(wù)。一旦出現(xiàn)問(wèn)題,GMI會(huì)以最快速度恢復(fù)我們的集群,減少故障時(shí)間,確保系統(tǒng)穩(wěn)定性。

圖片來(lái)源:AI生成

GMI Cloud目前為AI Infra選型提供兩種方案,第一種是PRIVATE CLOUD,如果企業(yè)需要長(zhǎng)期占有一個(gè)獨(dú)立集群,GMI Cloud會(huì)推薦這種私有的PRIVATE CLOUD,GMI Cloud會(huì)幫助完成模型從底層到上層的全部?jī)?yōu)化,讓企業(yè)“拎包入住”。如果只是臨時(shí)使用一兩張卡、用幾天,那就推薦用ON-DEMAND來(lái)節(jié)約成本。

圖片來(lái)源:AI生成

GMI Cloud的融資情況與發(fā)展規(guī)劃

由Google X 的AI專(zhuān)家與硅谷精英共同參與創(chuàng)立的GMI Cloud是一家領(lǐng)先的AI Native Cloud 服務(wù)商,擁有遍布全球的數(shù)據(jù)中心網(wǎng)絡(luò),為企業(yè)AI應(yīng)用提供最新、最優(yōu)的GPU資源,為全球新創(chuàng)公司、研究機(jī)構(gòu)和大型企業(yè)提供穩(wěn)定安全、高效經(jīng)濟(jì)的AI云服務(wù)解決方案。

GMI Cloud憑借高穩(wěn)定性的技術(shù)架構(gòu)、強(qiáng)大的GPU供應(yīng)鏈以及令人矚目的GPU產(chǎn)品陣容(如擁有AI 強(qiáng)大算力的H100;能夠精準(zhǔn)平衡AI 成本與效率的H200;以及未來(lái)即將上線(xiàn)的具有卓越性能的GB200等),確保企業(yè)客戶(hù)在高度數(shù)據(jù)安全與計(jì)算效能的基礎(chǔ)上,高效低本地完成 AI 落地。

據(jù)悉,GMI Cloud在10月完成了A 輪8200 萬(wàn)美元融資,由Headline Asia領(lǐng)投,同時(shí)獲得亞太區(qū)智能能源解決方案提供商Banpu (BANPU.BK)以及全球科技大廠緯創(chuàng)資通(3231.TW)的戰(zhàn)略投資。這筆資金將用于科羅拉多州數(shù)據(jù)中心的建設(shè),以強(qiáng)化GMI Cloud 在全球AI算力服務(wù)方面的布局。

在接下來(lái)的一年內(nèi),GMI Cloud的主要發(fā)展目標(biāo)是繼續(xù)提升GPU云服務(wù)的性能和穩(wěn)定性,除了Cluster Engine以外,還將重點(diǎn)發(fā)展Inference Engine,解決AI推理相關(guān)需求。(本文首發(fā)于鈦媒體APP,作者|郭虹妘 ,編輯|陶天宇)

轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接
聲明:文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶(hù)分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

09:13

布倫特原油期貨日內(nèi)跌超2%

09:11

現(xiàn)貨白銀日內(nèi)漲幅擴(kuò)大至1%

09:10

北交所上市公司今日達(dá)到300家

09:09

華沿機(jī)器人尋求在香港IPO中籌資13.7億港元

09:08

券商調(diào)研名單出爐,風(fēng)電、光伏、存儲(chǔ)芯片熱度高

09:06

激光和納米結(jié)構(gòu)在室溫下“孕育”出超固體

09:04

富時(shí)中國(guó)A50指數(shù)期貨盤(pán)初漲0.15%

09:03

國(guó)內(nèi)商品期貨開(kāi)盤(pán)多數(shù)下跌,瓶片跌超7%

09:02

3月LPR報(bào)價(jià)出爐:5年期和1年期利率均維持不變

09:01

美國(guó)白宮據(jù)報(bào)將在數(shù)日內(nèi)發(fā)布人工智能監(jiān)管框架

08:59

國(guó)民技術(shù):確定H股發(fā)行的最終價(jià)格為每股10.8港元,預(yù)計(jì)3月23日上市

08:52

第二艘國(guó)產(chǎn)大型郵輪“愛(ài)達(dá)·花城號(hào)”今日將出塢

08:50

編造傳播涉科大訊飛網(wǎng)絡(luò)謠言,沙某被行拘

08:49

深港通下的港股通標(biāo)的證券名單調(diào)整,調(diào)入廣合科技

08:48

兩市融資余額減少42.88億元

08:45

3月20日A股盤(pán)前要聞

08:33

美聯(lián)儲(chǔ)4月維持利率不變的概率為92.8%,加息概率為7.2%

08:32

豬價(jià)下跌+業(yè)績(jī)承壓,生豬養(yǎng)殖業(yè)寒意加深

08:31

OpenAI將發(fā)布“超級(jí)應(yīng)用”:整合ChatGPT等三大平臺(tái)、開(kāi)發(fā)智能體

08:25

特朗普會(huì)晤高市早苗,要求日本就伊朗戰(zhàn)事出力

掃描下載App