圖片來(lái)源:@Ali Ghodsi

MosaicML團(tuán)隊(duì)也是AI領(lǐng)域最大收購(gòu)案的主角。去年6月,數(shù)據(jù)和人工智能公司Databricks以折合人民幣約94億元的價(jià)格,收購(gòu)了員工總數(shù)僅為62人的MosaicML公司。

今天MosaicML研究團(tuán)隊(duì)的成就,足以證明Databricks的好眼光。

通過(guò)開(kāi)源DBRX模型,Databricks希望突破當(dāng)前生成式AI熱潮中的“保密主義”。他們的目標(biāo)是推動(dòng)技術(shù)創(chuàng)新,讓強(qiáng)大的AI工具被更多開(kāi)發(fā)者使用。

領(lǐng)先的細(xì)粒度MoE大模型

Databricks在博客文章中介紹,DBRX是一個(gè)采用了細(xì)粒度(Fine-grained)混合專家(MoE)架構(gòu)的基于Transformer的解碼器型大型語(yǔ)言模型(LLM)。

它共有132B的參數(shù),其中36B的參數(shù)在任何給定的輸入上處于激活狀態(tài)。DBRX在12T個(gè)文本和代碼數(shù)據(jù)的tokens上進(jìn)行了預(yù)訓(xùn)練。與其他開(kāi)源的MoE模型(如Mixtral等)相比,DBRX的特點(diǎn)是細(xì)粒度(Fine-grained),即它使用了更多數(shù)量“小專家”。DBRX擁有16個(gè)專家,每次選擇4個(gè);而Mixtral和Grok-1分別擁有8個(gè)專家,每次選擇2個(gè)。這種設(shè)置提供了65倍以上可能的專家組合。

DBRX還采用了旋轉(zhuǎn)位置編碼(RoPE)、門控線性單元(GLU)和分組查詢注意力(GQA)技術(shù),同時(shí)使用了GPT-4的分詞器。DBRX在一組精心挑選的、包含12T tokens的數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練,其最大上下文長(zhǎng)度達(dá)到了 32k tokens。

DBRX在語(yǔ)言理解、編程、數(shù)學(xué)和邏輯方面輕松擊敗當(dāng)前頂尖的開(kāi)源模型,包括Meta的Llama 2-70B、法國(guó)MixtralAI的Mixtral以及馬斯克的xAI開(kāi)發(fā)的Grok-1。

Databricks還提出了一個(gè)全新的開(kāi)源基準(zhǔn)測(cè)試指標(biāo)“Gauntlet”,可以通過(guò)30多種不同的先進(jìn)模型基準(zhǔn)測(cè)試。

同時(shí),DBRX 在語(yǔ)言理解(MMLU)、編程(HumanEval)和數(shù)學(xué)(GSM8K)方面超越了現(xiàn)有的開(kāi)源模型。

DBRX在語(yǔ)言理解、編程和數(shù)學(xué)方面的測(cè)試結(jié)果來(lái)源:Databricks博客

綜合基準(zhǔn)測(cè)試方面,DBRX團(tuán)隊(duì)在兩個(gè)綜合基準(zhǔn)測(cè)試上評(píng)估了DBRX Instruct等。一是Hugging Face開(kāi)源LLM排行榜,評(píng)估的任務(wù)包括ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande、GSM8k的平均分。二是Databricks模型測(cè)試套件,涵蓋6個(gè)類別的30多項(xiàng)任務(wù)套件:世界知識(shí)、常識(shí)推理、語(yǔ)言理解、閱讀理解、符號(hào)問(wèn)題解決和編程。

DBRX Instruct這兩個(gè)綜合基準(zhǔn)測(cè)試上得分都是最高的。其中,在Hugging Face開(kāi)源LLM排行榜中得分74.5%,第二名是Mixtral Instruct,得分72.7%。在Databricks的模型測(cè)試套件中得分66.8%,第二名依舊是Mixtral Instruct得分60.7%。

而在編程和數(shù)學(xué)方面,DBRX Instruct與其他開(kāi)源模型相比,它在HumanEval和GSM8k上得分更高。DBRX 在這些基準(zhǔn)測(cè)試上超過(guò)了Grok-1,要知道Grok-1的參數(shù)量是 DBRX的2.4倍。在HumanEval上,DBRX Instruct甚至超過(guò)了專門為編程構(gòu)建的CodeLLaMA-70B Instruct,雖然DBRX Instruct最初的設(shè)計(jì)目的是通用大模型。

在衡量大語(yǔ)言模型性能的指標(biāo)MMLU(Mean Multi-Language Understanding)上,DBRX Instruct同樣表現(xiàn)最好,達(dá)到了73.7%。

DBRX與其他開(kāi)源模型的測(cè)試對(duì)比來(lái)源:Databricks博客

DBRX Instruct與GPT-3.5等優(yōu)秀的閉源模型相比較,同樣表現(xiàn)出色。

在幾乎所基準(zhǔn)測(cè)試中,DBRX Instruct幾乎都超越了GPT-3.5。在常識(shí)推理方面,DBRX Instruct在MMLU(73.7% vs. 70.0%)、HellaSwag(89.0% vs. 85.5%)和WinoGrande(81.8% vs. 81.6%)上表現(xiàn)超過(guò)GPT-3.5。在編程和數(shù)學(xué)推理方面,DBRX Instruct表現(xiàn)尤為出色,如HumanEval(70.1% vs. 48.1%)和GSM8k(72.8% vs. 57.1%)所測(cè)量。

DBRX與閉源模型的測(cè)試對(duì)比來(lái)源:Databricks博客

除了基準(zhǔn)評(píng)測(cè)外,Databricks還公布了DBRX在長(zhǎng)上下文任務(wù)以及檢索增強(qiáng)生成(Retrieval Augmented Generation, RAG)任務(wù)中的表現(xiàn)。

DBRX Instruct 訓(xùn)練時(shí)使用了一個(gè)巨大的上下文窗口,能處理高達(dá)32000個(gè)token。在長(zhǎng)上下文任務(wù)的性能評(píng)估中,它與Mixtral Instruct、GPT-3.5 Turbo和GPT-4 Turbo進(jìn)行了比較。基于論文《Lost in the Middle》的KV-Pairs和擴(kuò)展的HotPotQA任務(wù)HotpotQAXL,DBRX Instruct 在大多數(shù)情況下都優(yōu)于GPT-3.5 Turbo,并且與Mixtral Instruct表現(xiàn)相近。

DBRX Instruct還擁有利用額外信息處理復(fù)雜任務(wù)的能力。在RAG任務(wù)中,DBRX Instruct 結(jié)合了從維基百科檢索的信息,在Natural Questions和HotPotQA基準(zhǔn)測(cè)試中展現(xiàn)了與Mixtral Instruct和LLaMA2-70B Chat等開(kāi)放模型以及GPT-3.5 Turbo相當(dāng)?shù)母?jìng)爭(zhēng)力。

普遍而言,MoE模型在推理方面比其總參數(shù)數(shù)量所推測(cè)得更快。因?yàn)樗鼈儗?duì)每個(gè)輸入使用的參數(shù)相對(duì)較少,DBRX也不例外。DBRX的推理吞吐量比132B非MoE模型高2-3倍。

推理效率和模型質(zhì)量通常是相互權(quán)衡關(guān)系:通常情況較大的模型具有更高的質(zhì)量,而較小的模型則具有更高的推理效率。

MoE模型的推理速度往往比其總參數(shù)量所暗示的速度要快,因?yàn)樗鼈儗?duì)每個(gè)輸入使用的參數(shù)相對(duì)較少。與非MoE模型相比,DBRX的推理吞吐量提高了 2-3 倍,即使總參數(shù)量達(dá)到132B。

MoE架構(gòu)能夠在模型質(zhì)量和推理效率之間實(shí)現(xiàn)更好的權(quán)衡,這一點(diǎn)在密集模型中通常難以達(dá)到。例如,DBRX在質(zhì)量上超過(guò)了LLaMA2-70B,由于其活躍參數(shù)數(shù)量?jī)H為L(zhǎng)LaMA2-70B的一半,DBRX的推理吞吐量最多可以提高2倍。Mixtral是另一個(gè)MoE模型改進(jìn)的例子:它的體積比DBRX小,質(zhì)量較低,所以推理吞吐量更高。

DBRX的推理效率來(lái)源:Databricks博客

具有開(kāi)源基因的團(tuán)隊(duì)

創(chuàng)造這一成果是一個(gè)富有活力并具有開(kāi)源精神的團(tuán)隊(duì)。

上周一,在DBRX發(fā)布之前,大約十幾名Databricks工程師和高管拉了一個(gè)線上會(huì)議,共同討論他們是否已經(jīng)成功構(gòu)建了一個(gè)頂級(jí)的AI大模型。

此前,該團(tuán)隊(duì)花費(fèi)了數(shù)月時(shí)間和大約1000萬(wàn)美元來(lái)訓(xùn)練DBRX,但在最終測(cè)試的結(jié)果出來(lái)之前,他們并不知道這個(gè)模型有多強(qiáng)大。

“我們已經(jīng)超越了所有!”Jonathan Frankle說(shuō)出了一句讓大家興奮的話。

團(tuán)隊(duì)成員們發(fā)出了歡呼聲、喝彩聲,還在ZOOM線上會(huì)議評(píng)論區(qū)發(fā)出了大量鼓掌表情符號(hào)。大家還發(fā)現(xiàn),平時(shí)盡量避免攝入咖啡因的Frankle,這一刻正在啜飲冰拿鐵。

時(shí)間回到十多年前。

Databricks起源于學(xué)術(shù)界和開(kāi)源社區(qū),由Apache Spark、Delta Lake和MLflow的原始創(chuàng)建者于2013年創(chuàng)立。Databricks官網(wǎng)介紹,作為世界上第一個(gè)也是唯一一個(gè)云端Lakehouse平臺(tái),Databricks結(jié)合了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的最佳特性,提供了一個(gè)開(kāi)放且統(tǒng)一的數(shù)據(jù)和AI平臺(tái)。

Databricks創(chuàng)始團(tuán)隊(duì)由七位計(jì)算機(jī)科學(xué)博士組成,他們一直致力于開(kāi)發(fā)用于數(shù)據(jù)處理的Spark引擎,為了讓更多人能夠使用它,他們決定開(kāi)源Spark,并將Spark商業(yè)化。

2013年9月,DataBricks獲1400萬(wàn)美元投資,投資方為Andreessen Horowitz(A16Z)。

Ali Ghodsi是Databricks的聯(lián)合創(chuàng)始人,2016年他成為了公司的CEO,目前他負(fù)責(zé)公司的發(fā)展和國(guó)際化拓展。

除了在Databricks的工作,Ghodsi還是加州大學(xué)伯克利分校的兼職教授,并且是伯克利分校RiseLab的董事會(huì)成員。他是開(kāi)源項(xiàng)目Apache Spark的創(chuàng)造者之一,其學(xué)術(shù)研究在資源管理、調(diào)度和數(shù)據(jù)緩存方面的思想已經(jīng)被應(yīng)用到Apache Mesos和Apache Hadoop中。Ghodsi在2003年從瑞典中部大學(xué)獲得MBA學(xué)位,2006年在瑞典皇家理工學(xué)院獲得分布式計(jì)算領(lǐng)域的博士學(xué)位。

除了Ali Ghodsi,目前Databricks的AI決策層成員還有:Jonathan Frankle、Naveen G. Rao和Hanlin Tang等。這三位之前都來(lái)自被Databricks收購(gòu)的MosaicML。

MosaicML由Hanlin Tang和Naveen G. Rao于2021年創(chuàng)立,Jonathan Frankle擔(dān)任創(chuàng)始顧問(wèn)和首席科學(xué)家,MosaicML開(kāi)發(fā)的愿景是通過(guò)讓更廣泛的人群和企業(yè)更容易使用人工智能來(lái)實(shí)現(xiàn)人工智能民主化。 

Jonathan Frankle現(xiàn)在成為了Databricks首席神經(jīng)網(wǎng)絡(luò)架構(gòu)師、DBRX開(kāi)發(fā)團(tuán)隊(duì)的負(fù)責(zé)人,他是MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的博士后研究員,也是哈佛Kempner研究所的附屬教員。他的研究方向是神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)動(dòng)力學(xué)和訓(xùn)練算法,旨在提高大語(yǔ)言模型的效率同時(shí)降低訓(xùn)練成本。

Naveen G. Rao是Databricks生成式AI方向的副總裁。他曾是英特爾人工智能產(chǎn)品組前副總裁兼總經(jīng)理,主管AI產(chǎn)品開(kāi)發(fā)和戰(zhàn)略,包括推出專為加速深度學(xué)習(xí)設(shè)計(jì)的硬件和軟件優(yōu)化。

作為計(jì)算機(jī)架構(gòu)師和神經(jīng)科學(xué)家,他在2016年隨Nervana Systems并入英特爾,此前擔(dān)任Nervana CEO,將其建設(shè)為深度學(xué)習(xí)領(lǐng)域的領(lǐng)導(dǎo)者。Rao曾在高通研究神經(jīng)形態(tài)機(jī)器,職業(yè)生涯還包括在Kealia Inc.、CALY Networks和Sun Microsystems的工程師角色。他擁有杜克大學(xué)的學(xué)士學(xué)位和布朗大學(xué)計(jì)算神經(jīng)科學(xué)博士學(xué)位,發(fā)表多篇神經(jīng)計(jì)算論文,持有視頻壓縮等領(lǐng)域?qū)@?/p>

Databricks神經(jīng)網(wǎng)絡(luò)方向的CTO Hanlin Tang,曾是MosaicML的聯(lián)合創(chuàng)始人、CTO。Hanlin Tang擁有哈佛大學(xué)的生物物理學(xué)博士學(xué)位,研究人類視覺(jué)循環(huán)神經(jīng)網(wǎng)絡(luò)。他曾領(lǐng)導(dǎo)英特爾實(shí)驗(yàn)室的人工智能實(shí)驗(yàn)室,專注于應(yīng)用深度強(qiáng)化學(xué)習(xí)、自然語(yǔ)言處理和擴(kuò)展大型模型。

致力于開(kāi)放人工智能研究EleutherAI執(zhí)行董事Stella Biderman表示,目前幾乎沒(méi)有證據(jù)表明開(kāi)放性會(huì)增加風(fēng)險(xiǎn)。開(kāi)放模型有利于經(jīng)濟(jì)增長(zhǎng),因?yàn)樗鼈冇兄诔鮿?chuàng)企業(yè)和小型企業(yè),也有助于“加速科學(xué)研究”。

Databricks希望DBRX能夠做到這兩點(diǎn)。Jonathan Frankle表示,除了為其他人工智能研究人員提供一個(gè)新的模型來(lái)研究和構(gòu)建他們自己的模型的有用提示之外,DBRX還可能有助于更深入地理解人工智能的實(shí)際運(yùn)作方式。

Databricks團(tuán)隊(duì)計(jì)劃研究模型在訓(xùn)練的最后一周是如何變化的,這可能會(huì)揭示出一個(gè)強(qiáng)大的模型是如何獲得額外能力的。“最讓我興奮的部分是我們能夠在這個(gè)規(guī)模上進(jìn)行科學(xué)研究。”Jonathan Frankle說(shuō)。

Databricks接下來(lái)將發(fā)文詳細(xì)介紹創(chuàng)建DBRX的工作過(guò)程,這種透明度甚至連Meta在發(fā)布Llama 2時(shí)也未能做到。

Allen研究所(Allen Institute for AI)的CEO Ali Farhadi表示,圍繞AI模型構(gòu)建和培訓(xùn)更大透明度是“必需的”。

Ali Farhadi說(shuō):“我很高興看到任何開(kāi)放性的努力。”“我確實(shí)相信市場(chǎng)的相當(dāng)一部分將轉(zhuǎn)向開(kāi)源模型。”

*參考資料:《Inside the Creation of the World’s Most Powerful Open Source AI Model》,Wired

 

本文系作者 甲子光年科技產(chǎn)業(yè)智庫(kù) 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

18:01

國(guó)家金融監(jiān)管總局局長(zhǎng)李云澤會(huì)見(jiàn)美中貿(mào)易全國(guó)委員會(huì)會(huì)長(zhǎng)譚森

17:59

四川發(fā)布地質(zhì)礦產(chǎn)人工智能大模型產(chǎn)品集群

17:55

建設(shè)銀行:2025年歸母凈利潤(rùn)3389.06億元,同比增長(zhǎng)0.99%

17:54

泡泡瑪特連續(xù)兩日回購(gòu)股份,今年以來(lái)累計(jì)回購(gòu)金額超12億港元

17:52

電動(dòng)自行車鋰離子電池回收利用體系建設(shè)座談會(huì)暨相關(guān)政策宣貫會(huì)在京召開(kāi)

17:50

上期能源豐富可交割油種

17:48

商務(wù)部:大力發(fā)展離境退稅,增加退稅商店、豐富退稅商品

17:47

南向資金今日凈賣出28.83億港元,盈富基金遭凈賣出35.56億港元

17:46

小米MiMo大模型負(fù)責(zé)人羅福莉:AI通過(guò)“自進(jìn)化”創(chuàng)造新東西

17:45

平頭哥主控芯片鎮(zhèn)岳510出貨量已超50萬(wàn)片

17:44

27億假黃金騙貸案一審宣判

17:41

坤彩科技:一季度凈利同比預(yù)增152%-235%

17:41

商務(wù)部部長(zhǎng)王文濤會(huì)見(jiàn)歐委會(huì)貿(mào)易和經(jīng)濟(jì)安全委員謝夫喬維奇

17:37

促進(jìn)汽車數(shù)據(jù)跨境流動(dòng),中歐汽車工業(yè)協(xié)會(huì)簽署備忘錄

17:36

中國(guó)太保蘇罡:適時(shí)增加權(quán)益資產(chǎn)配置

17:35

機(jī)構(gòu):海灣能源設(shè)施修復(fù)估算至少達(dá)250億美元

17:34

美圖公司:2025年歸母凈利潤(rùn)6.98億元,同比下降12.7%

17:31

國(guó)邦醫(yī)藥:全資子公司擬投資10.2億元建設(shè)醫(yī)藥原料藥及中間體綠色智造技改項(xiàng)目

17:31

上期能源:進(jìn)一步擴(kuò)大合格境外投資者參與商品期貨、期權(quán)交易范圍

17:29

上期能源發(fā)布20號(hào)膠和陰極銅期貨期權(quán)合約

掃描下載App