婷婷AV在线无码∨A,毛片大全免费看久草丝袜,色五月av在线

MosaicML團(tuán)隊(duì)也是AI領(lǐng)域最大收購(gòu)案的主角。去年6月，數(shù)據(jù)和人工智能公司Databricks以折合人民幣約94億元的價(jià)格，收購(gòu)了員工總數(shù)僅為62人的MosaicML公司。

今天MosaicML研究團(tuán)隊(duì)的成就，足以證明Databricks的好眼光。

通過(guò)開(kāi)源DBRX模型，Databricks希望突破當(dāng)前生成式AI熱潮中的“保密主義”。他們的目標(biāo)是推動(dòng)技術(shù)創(chuàng)新，讓強(qiáng)大的AI工具被更多開(kāi)發(fā)者使用。

領(lǐng)先的細(xì)粒度MoE大模型

Databricks在博客文章中介紹，DBRX是一個(gè)采用了細(xì)粒度（Fine-grained）混合專家（MoE）架構(gòu)的基于Transformer的解碼器型大型語(yǔ)言模型（LLM）。

它共有132B的參數(shù)，其中36B的參數(shù)在任何給定的輸入上處于激活狀態(tài)。DBRX在12T個(gè)文本和代碼數(shù)據(jù)的tokens上進(jìn)行了預(yù)訓(xùn)練。與其他開(kāi)源的MoE模型（如Mixtral等）相比，DBRX的特點(diǎn)是細(xì)粒度（Fine-grained），即它使用了更多數(shù)量“小專家”。DBRX擁有16個(gè)專家，每次選擇4個(gè)；而Mixtral和Grok-1分別擁有8個(gè)專家，每次選擇2個(gè)。這種設(shè)置提供了65倍以上可能的專家組合。

DBRX還采用了旋轉(zhuǎn)位置編碼（RoPE）、門控線性單元（GLU）和分組查詢注意力（GQA）技術(shù)，同時(shí)使用了GPT-4的分詞器。DBRX在一組精心挑選的、包含12T tokens的數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練，其最大上下文長(zhǎng)度達(dá)到了 32k tokens。

DBRX在語(yǔ)言理解、編程、數(shù)學(xué)和邏輯方面輕松擊敗當(dāng)前頂尖的開(kāi)源模型，包括Meta的Llama 2-70B、法國(guó)MixtralAI的Mixtral以及馬斯克的xAI開(kāi)發(fā)的Grok-1。

Databricks還提出了一個(gè)全新的開(kāi)源基準(zhǔn)測(cè)試指標(biāo)“Gauntlet”，可以通過(guò)30多種不同的先進(jìn)模型基準(zhǔn)測(cè)試。

同時(shí)，DBRX 在語(yǔ)言理解（MMLU）、編程（HumanEval）和數(shù)學(xué)（GSM8K）方面超越了現(xiàn)有的開(kāi)源模型。

DBRX在語(yǔ)言理解、編程和數(shù)學(xué)方面的測(cè)試結(jié)果來(lái)源：Databricks博客

綜合基準(zhǔn)測(cè)試方面，DBRX團(tuán)隊(duì)在兩個(gè)綜合基準(zhǔn)測(cè)試上評(píng)估了DBRX Instruct等。一是Hugging Face開(kāi)源LLM排行榜，評(píng)估的任務(wù)包括ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande、GSM8k的平均分。二是Databricks模型測(cè)試套件，涵蓋6個(gè)類別的30多項(xiàng)任務(wù)套件：世界知識(shí)、常識(shí)推理、語(yǔ)言理解、閱讀理解、符號(hào)問(wèn)題解決和編程。

DBRX Instruct這兩個(gè)綜合基準(zhǔn)測(cè)試上得分都是最高的。其中，在Hugging Face開(kāi)源LLM排行榜中得分74.5%，第二名是Mixtral Instruct，得分72.7%。在Databricks的模型測(cè)試套件中得分66.8%，第二名依舊是Mixtral Instruct得分60.7%。

而在編程和數(shù)學(xué)方面，DBRX Instruct與其他開(kāi)源模型相比，它在HumanEval和GSM8k上得分更高。DBRX 在這些基準(zhǔn)測(cè)試上超過(guò)了Grok-1，要知道Grok-1的參數(shù)量是 DBRX的2.4倍。在HumanEval上，DBRX Instruct甚至超過(guò)了專門為編程構(gòu)建的CodeLLaMA-70B Instruct，雖然DBRX Instruct最初的設(shè)計(jì)目的是通用大模型。

在衡量大語(yǔ)言模型性能的指標(biāo)MMLU（Mean Multi-Language Understanding）上，DBRX Instruct同樣表現(xiàn)最好，達(dá)到了73.7%。

DBRX與其他開(kāi)源模型的測(cè)試對(duì)比來(lái)源：Databricks博客

DBRX Instruct與GPT-3.5等優(yōu)秀的閉源模型相比較，同樣表現(xiàn)出色。

在幾乎所基準(zhǔn)測(cè)試中，DBRX Instruct幾乎都超越了GPT-3.5。在常識(shí)推理方面，DBRX Instruct在MMLU（73.7% vs. 70.0%）、HellaSwag（89.0% vs. 85.5%）和WinoGrande（81.8% vs. 81.6%）上表現(xiàn)超過(guò)GPT-3.5。在編程和數(shù)學(xué)推理方面，DBRX Instruct表現(xiàn)尤為出色，如HumanEval（70.1% vs. 48.1%）和GSM8k（72.8% vs. 57.1%）所測(cè)量。

除了基準(zhǔn)評(píng)測(cè)外，Databricks還公布了DBRX在長(zhǎng)上下文任務(wù)以及檢索增強(qiáng)生成（Retrieval Augmented Generation, RAG）任務(wù)中的表現(xiàn)。

DBRX Instruct 訓(xùn)練時(shí)使用了一個(gè)巨大的上下文窗口，能處理高達(dá)32000個(gè)token。在長(zhǎng)上下文任務(wù)的性能評(píng)估中，它與Mixtral Instruct、GPT-3.5 Turbo和GPT-4 Turbo進(jìn)行了比較。基于論文《Lost in the Middle》的KV-Pairs和擴(kuò)展的HotPotQA任務(wù)HotpotQAXL，DBRX Instruct 在大多數(shù)情況下都優(yōu)于GPT-3.5 Turbo，并且與Mixtral Instruct表現(xiàn)相近。

DBRX Instruct還擁有利用額外信息處理復(fù)雜任務(wù)的能力。在RAG任務(wù)中，DBRX Instruct 結(jié)合了從維基百科檢索的信息，在Natural Questions和HotPotQA基準(zhǔn)測(cè)試中展現(xiàn)了與Mixtral Instruct和LLaMA2-70B Chat等開(kāi)放模型以及GPT-3.5 Turbo相當(dāng)?shù)母?jìng)爭(zhēng)力。

普遍而言，MoE模型在推理方面比其總參數(shù)數(shù)量所推測(cè)得更快。因?yàn)樗鼈儗?duì)每個(gè)輸入使用的參數(shù)相對(duì)較少，DBRX也不例外。DBRX的推理吞吐量比132B非MoE模型高2-3倍。

推理效率和模型質(zhì)量通常是相互權(quán)衡關(guān)系：通常情況較大的模型具有更高的質(zhì)量，而較小的模型則具有更高的推理效率。

MoE模型的推理速度往往比其總參數(shù)量所暗示的速度要快，因?yàn)樗鼈儗?duì)每個(gè)輸入使用的參數(shù)相對(duì)較少。與非MoE模型相比，DBRX的推理吞吐量提高了 2-3 倍，即使總參數(shù)量達(dá)到132B。

MoE架構(gòu)能夠在模型質(zhì)量和推理效率之間實(shí)現(xiàn)更好的權(quán)衡，這一點(diǎn)在密集模型中通常難以達(dá)到。例如，DBRX在質(zhì)量上超過(guò)了LLaMA2-70B，由于其活躍參數(shù)數(shù)量?jī)H為L(zhǎng)LaMA2-70B的一半，DBRX的推理吞吐量最多可以提高2倍。Mixtral是另一個(gè)MoE模型改進(jìn)的例子：它的體積比DBRX小，質(zhì)量較低，所以推理吞吐量更高。

具有開(kāi)源基因的團(tuán)隊(duì)

創(chuàng)造這一成果是一個(gè)富有活力并具有開(kāi)源精神的團(tuán)隊(duì)。

上周一，在DBRX發(fā)布之前，大約十幾名Databricks工程師和高管拉了一個(gè)線上會(huì)議，共同討論他們是否已經(jīng)成功構(gòu)建了一個(gè)頂級(jí)的AI大模型。

此前，該團(tuán)隊(duì)花費(fèi)了數(shù)月時(shí)間和大約1000萬(wàn)美元來(lái)訓(xùn)練DBRX，但在最終測(cè)試的結(jié)果出來(lái)之前，他們并不知道這個(gè)模型有多強(qiáng)大。

“我們已經(jīng)超越了所有！”Jonathan Frankle說(shuō)出了一句讓大家興奮的話。

團(tuán)隊(duì)成員們發(fā)出了歡呼聲、喝彩聲，還在ZOOM線上會(huì)議評(píng)論區(qū)發(fā)出了大量鼓掌表情符號(hào)。大家還發(fā)現(xiàn)，平時(shí)盡量避免攝入咖啡因的Frankle，這一刻正在啜飲冰拿鐵。

Databricks起源于學(xué)術(shù)界和開(kāi)源社區(qū)，由Apache Spark、Delta Lake和MLflow的原始創(chuàng)建者于2013年創(chuàng)立。Databricks官網(wǎng)介紹，作為世界上第一個(gè)也是唯一一個(gè)云端Lakehouse平臺(tái)，Databricks結(jié)合了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的最佳特性，提供了一個(gè)開(kāi)放且統(tǒng)一的數(shù)據(jù)和AI平臺(tái)。

Databricks創(chuàng)始團(tuán)隊(duì)由七位計(jì)算機(jī)科學(xué)博士組成，他們一直致力于開(kāi)發(fā)用于數(shù)據(jù)處理的Spark引擎，為了讓更多人能夠使用它，他們決定開(kāi)源Spark，并將Spark商業(yè)化。

2013年9月，DataBricks獲1400萬(wàn)美元投資，投資方為Andreessen Horowitz（A16Z）。

Ali Ghodsi是Databricks的聯(lián)合創(chuàng)始人，2016年他成為了公司的CEO，目前他負(fù)責(zé)公司的發(fā)展和國(guó)際化拓展。

除了在Databricks的工作，Ghodsi還是加州大學(xué)伯克利分校的兼職教授，并且是伯克利分校RiseLab的董事會(huì)成員。他是開(kāi)源項(xiàng)目Apache Spark的創(chuàng)造者之一，其學(xué)術(shù)研究在資源管理、調(diào)度和數(shù)據(jù)緩存方面的思想已經(jīng)被應(yīng)用到Apache Mesos和Apache Hadoop中。Ghodsi在2003年從瑞典中部大學(xué)獲得MBA學(xué)位，2006年在瑞典皇家理工學(xué)院獲得分布式計(jì)算領(lǐng)域的博士學(xué)位。

除了Ali Ghodsi，目前Databricks的AI決策層成員還有：Jonathan Frankle、Naveen G. Rao和Hanlin Tang等。這三位之前都來(lái)自被Databricks收購(gòu)的MosaicML。

MosaicML由Hanlin Tang和Naveen G. Rao于2021年創(chuàng)立，Jonathan Frankle擔(dān)任創(chuàng)始顧問(wèn)和首席科學(xué)家，MosaicML開(kāi)發(fā)的愿景是通過(guò)讓更廣泛的人群和企業(yè)更容易使用人工智能來(lái)實(shí)現(xiàn)人工智能民主化。

Jonathan Frankle現(xiàn)在成為了Databricks首席神經(jīng)網(wǎng)絡(luò)架構(gòu)師、DBRX開(kāi)發(fā)團(tuán)隊(duì)的負(fù)責(zé)人，他是MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的博士后研究員，也是哈佛Kempner研究所的附屬教員。他的研究方向是神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)動(dòng)力學(xué)和訓(xùn)練算法，旨在提高大語(yǔ)言模型的效率同時(shí)降低訓(xùn)練成本。

Naveen G. Rao是Databricks生成式AI方向的副總裁。他曾是英特爾人工智能產(chǎn)品組前副總裁兼總經(jīng)理，主管AI產(chǎn)品開(kāi)發(fā)和戰(zhàn)略，包括推出專為加速深度學(xué)習(xí)設(shè)計(jì)的硬件和軟件優(yōu)化。

作為計(jì)算機(jī)架構(gòu)師和神經(jīng)科學(xué)家，他在2016年隨Nervana Systems并入英特爾，此前擔(dān)任Nervana CEO，將其建設(shè)為深度學(xué)習(xí)領(lǐng)域的領(lǐng)導(dǎo)者。Rao曾在高通研究神經(jīng)形態(tài)機(jī)器，職業(yè)生涯還包括在Kealia Inc.、CALY Networks和Sun Microsystems的工程師角色。他擁有杜克大學(xué)的學(xué)士學(xué)位和布朗大學(xué)計(jì)算神經(jīng)科學(xué)博士學(xué)位，發(fā)表多篇神經(jīng)計(jì)算論文，持有視頻壓縮等領(lǐng)域?qū)＠?/p>

Databricks神經(jīng)網(wǎng)絡(luò)方向的CTO Hanlin Tang，曾是MosaicML的聯(lián)合創(chuàng)始人、CTO。Hanlin Tang擁有哈佛大學(xué)的生物物理學(xué)博士學(xué)位，研究人類視覺(jué)循環(huán)神經(jīng)網(wǎng)絡(luò)。他曾領(lǐng)導(dǎo)英特爾實(shí)驗(yàn)室的人工智能實(shí)驗(yàn)室，專注于應(yīng)用深度強(qiáng)化學(xué)習(xí)、自然語(yǔ)言處理和擴(kuò)展大型模型。

致力于開(kāi)放人工智能研究EleutherAI執(zhí)行董事Stella Biderman表示，目前幾乎沒(méi)有證據(jù)表明開(kāi)放性會(huì)增加風(fēng)險(xiǎn)。開(kāi)放模型有利于經(jīng)濟(jì)增長(zhǎng)，因?yàn)樗鼈冇兄诔鮿?chuàng)企業(yè)和小型企業(yè)，也有助于“加速科學(xué)研究”。

Databricks希望DBRX能夠做到這兩點(diǎn)。Jonathan Frankle表示，除了為其他人工智能研究人員提供一個(gè)新的模型來(lái)研究和構(gòu)建他們自己的模型的有用提示之外，DBRX還可能有助于更深入地理解人工智能的實(shí)際運(yùn)作方式。

Databricks團(tuán)隊(duì)計(jì)劃研究模型在訓(xùn)練的最后一周是如何變化的，這可能會(huì)揭示出一個(gè)強(qiáng)大的模型是如何獲得額外能力的。“最讓我興奮的部分是我們能夠在這個(gè)規(guī)模上進(jìn)行科學(xué)研究。”Jonathan Frankle說(shuō)。

Databricks接下來(lái)將發(fā)文詳細(xì)介紹創(chuàng)建DBRX的工作過(guò)程，這種透明度甚至連Meta在發(fā)布Llama 2時(shí)也未能做到。

Allen研究所（Allen Institute for AI）的CEO Ali Farhadi表示，圍繞AI模型構(gòu)建和培訓(xùn)更大透明度是“必需的”。

Ali Farhadi說(shuō)：“我很高興看到任何開(kāi)放性的努力。”“我確實(shí)相信市場(chǎng)的相當(dāng)一部分將轉(zhuǎn)向開(kāi)源模型。”

*參考資料：《Inside the Creation of the World’s Most Powerful Open Source AI Model》，Wired

本文系作者甲子光年科技產(chǎn)業(yè)智庫(kù) 授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)