AI大模型帶來(lái)的浪潮已經(jīng)席卷全球,時(shí)至今日幾乎所有的科技企業(yè)都在AI大模型方面有所布局。
隨著這一輪AI技術(shù)的快速發(fā)展,我們不難看出,AI已經(jīng)從“卷”技術(shù)走向“卷”應(yīng)用的階段,如果說(shuō)2023年是生成式AI元年的話,那么2024年必將是生成式AI企業(yè)側(cè)應(yīng)用落地的元年。
回看2023年,各大廠商爭(zhēng)先恐后的發(fā)布各自大模型產(chǎn)品,而當(dāng)產(chǎn)品發(fā)布后,幾乎所有人關(guān)注的焦點(diǎn)都在參數(shù)有多大上。彼時(shí),人們似乎不約而同都在以參數(shù)的大小衡量大模型產(chǎn)品的好壞。
生成式AI“鼻祖”發(fā)布的GPT-3.5據(jù)報(bào)道可達(dá)1750億個(gè)參數(shù),而后續(xù)推出的GPT-4雖然未知參數(shù),但顯然要比GPT-3.5更高;中國(guó)移動(dòng)發(fā)布的“九天智能基座”大模型也擁有千億級(jí)別參數(shù);通義千問(wèn)最新開(kāi)源的模型達(dá)到1100億參數(shù); Google AI 發(fā)布了 Pathways Language Model (PaLM),擁有 5400 億個(gè)參數(shù),在各種自然語(yǔ)言處理基準(zhǔn)測(cè)試中取得了最先進(jìn)的結(jié)果;浪潮信息發(fā)布的“源1.0”1大模型具有2457億參數(shù)......
而隨著參數(shù)數(shù)量的增加,也意味著訓(xùn)練模型需要更多的計(jì)算資源和訓(xùn)練時(shí)間。訓(xùn)練一個(gè)擁有數(shù)十億甚至數(shù)百億參數(shù)的 LLM,往往需要大量的計(jì)算設(shè)備和電力消耗。此外,龐大的參數(shù)也帶來(lái)更高的模型復(fù)雜度,對(duì)模型的訓(xùn)練和調(diào)優(yōu)也提出了更大的挑戰(zhàn)。
以一個(gè)5000億參數(shù)的大模型為例,訓(xùn)練這個(gè)大模型需要2萬(wàn)張H100的數(shù)據(jù)中心集群,需要大概10億美元的建設(shè)成本,而每年訓(xùn)練所消耗的電費(fèi)將達(dá)到5.3億元人民幣,無(wú)論對(duì)哪個(gè)企業(yè)而言,這都將是一筆難以估算與接受的開(kāi)銷。
在此背景下,AI大模型要想在企業(yè)側(cè)大規(guī)模落地應(yīng)用,企業(yè)就需要更多的考慮到算力效率,從模算效率層面,整體評(píng)估與衡量模型的精度和開(kāi)銷。對(duì)此,浪潮信息人工智能首席科學(xué)家吳韶華告訴鈦媒體APP,算力效率越高,意味著單位算力投入的情況下,模型精度回報(bào)越高,造成的算力浪費(fèi)現(xiàn)象越小,對(duì)模型的訓(xùn)練非常有利。而所謂模算效率,正是追求并實(shí)現(xiàn) “模型能力更強(qiáng)且算力消耗更少”的技術(shù)方式。

浪潮信息人工智能首席科學(xué)家吳韶華
“假設(shè)擁有很高的模算效率,我們基于更多token訓(xùn)練更到參數(shù)量模型就成為可能,”吳韶華對(duì)鈦媒體APP進(jìn)一步指出,“尤其是在企業(yè)側(cè)應(yīng)用的過(guò)程中,模型訓(xùn)練、推理的整體成本會(huì)隨著模算效率的提升而降低,也就進(jìn)一步降低了企業(yè)應(yīng)用AI的成本門檻。”
就如同互聯(lián)網(wǎng)的發(fā)展一般,消費(fèi)級(jí)的產(chǎn)品只是技術(shù)出現(xiàn)在人們眼前的渠道,而真正的技術(shù)價(jià)值還得看企業(yè)級(jí)的應(yīng)用。AI大模型在這點(diǎn)上與彼時(shí)的互聯(lián)網(wǎng)相似。隨著“產(chǎn)業(yè)AI化”進(jìn)程的推進(jìn),企業(yè)需要找到一個(gè)能“用得起”的大模型產(chǎn)品。這時(shí)候MoE架構(gòu)的出現(xiàn),就成為了現(xiàn)階段企業(yè)應(yīng)用大模型的最佳技術(shù)展現(xiàn)形式。
對(duì)此,吳韶華告訴鈦媒體APP,當(dāng)算力以及訓(xùn)練數(shù)據(jù)發(fā)展變緩,或者成本變高的時(shí)候,我們需要另外一種可以讓模型能力繼續(xù)進(jìn)行擴(kuò)展(scale)的創(chuàng)新方式。“基于此,今天,更好地利用一定規(guī)模的算力和數(shù)據(jù)構(gòu)建更大規(guī)模、資源消耗更少、性能更好的大語(yǔ)言模型,是產(chǎn)業(yè)面臨的核心問(wèn)題。”吳韶華強(qiáng)調(diào)。
而MoE(Mixture of Experts,混合專家模型)恰好就滿足了人們對(duì)于更大規(guī)模、更低消耗,更低算力資源占用的愿景。MoE本質(zhì)上是一種高效的scaling 技術(shù),用較少的計(jì)算資源實(shí)現(xiàn)更大的模型規(guī)模,從而獲得更好的模型性能表現(xiàn)。
MoE作為一種由專家模型和門控模型組成稀疏門控制的深度學(xué)習(xí)技術(shù),由多個(gè)專家模型組成,每個(gè)子模型都是一個(gè)局部模型。門控功能“稀疏性”的引入讓MoE在處理輸入數(shù)據(jù)時(shí)只激活使用少數(shù)專家模型,大部分專家模型處于未激活狀態(tài)。換言之,只有擅長(zhǎng)某一特定領(lǐng)域的模型會(huì)被派遣,為用戶提供最專業(yè)的服務(wù),而其他模型則原地待命,靜待自己擅長(zhǎng)的領(lǐng)域到來(lái)。這種“稀疏狀態(tài)”作為混合專家模型的重要優(yōu)勢(shì),進(jìn)一步提升了模型訓(xùn)練和推理過(guò)程的效率。
吳韶華告訴鈦媒體APP,MoE模型的一個(gè)顯著優(yōu)勢(shì)——能夠在遠(yuǎn)少于稠密模型所需的計(jì)算資源下進(jìn)行有效的預(yù)訓(xùn)練。“這意味著在相同的計(jì)算預(yù)算條件下,可以顯著擴(kuò)大模型或數(shù)據(jù)集的規(guī)模。特別是在預(yù)訓(xùn)練階段,與稠密模型相比,混合專家模型通常能夠更快地達(dá)到相同的質(zhì)量水平。”吳韶華表示。
據(jù)了解,近日浪潮信息全新發(fā)布的“源2.0-M32”(簡(jiǎn)稱M32) 正是基于MoE架構(gòu)的開(kāi)源大模型,“M32包含了32個(gè)專家的MoE大語(yǔ)言模型,參數(shù)量400億并大幅提升了模型算力效率,”吳韶華告訴鈦媒體APP,“M32憑借特別優(yōu)化設(shè)計(jì)的模型架構(gòu),在僅激活37億參數(shù)的情況下,取得了和700億參數(shù)LLaMA3相當(dāng)?shù)男阅芩?,所消耗算力僅為L(zhǎng)LaMA3的1/19。”
基于MoE架構(gòu),M32延用源2.0非均勻流水并行的方法,綜合運(yùn)用流水線并行+數(shù)據(jù)并行的策略,為硬件差異較大訓(xùn)練環(huán)境提供了一種高性能的訓(xùn)練方法,模算效率得到了大幅提升。
其實(shí)從今年以來(lái)各大廠商發(fā)布的大模型產(chǎn)品上就不難看出,MoE架構(gòu)已經(jīng)成為當(dāng)下大模型產(chǎn)品的主流架構(gòu)之一,今年初,深度求索團(tuán)隊(duì)發(fā)布了開(kāi)源的160億參數(shù)專家模型DeepSeek MoE,而OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型也都采用了MoE架構(gòu)。
相比于Dense模型,MoE無(wú)論在可擴(kuò)展性,計(jì)算效率、訓(xùn)練效率,還是靈活性、專業(yè)化、容錯(cuò)率等方面都有著出色的表現(xiàn),這也讓MoE架構(gòu)成為企業(yè)側(cè)應(yīng)用大模型的不二選擇。
顯然,在模算效率方面,基于MoE架構(gòu)開(kāi)發(fā)的M32大模型擁有非常明顯的優(yōu)勢(shì),這讓企業(yè)在使用M32大模型的過(guò)程中,算力資源的浪費(fèi)更少,成本更低,在這個(gè)追求降本增效的背景下,MoE更適合企業(yè)側(cè)部署大模型。
不過(guò)對(duì)于企業(yè)而言,“既要,又要”的想法肯定是每個(gè)企業(yè)都追求的,企業(yè)當(dāng)然不希望降低成本是以犧牲性能作為代價(jià)的。這時(shí)候,作為大模型提供商來(lái)說(shuō),就需要平衡好性能與成本之間的天平。
以最近剛剛發(fā)布的M32為例,吳韶華告訴鈦媒體APP,基于對(duì)性能的考慮,此次發(fā)布的M32使用了全新的門控網(wǎng)絡(luò)——Attention Router,負(fù)責(zé)調(diào)度各個(gè)token到不同專家模型上進(jìn)行混合計(jì)算,“Attention Router是一種專家間協(xié)同性的度量方法,”吳韶華指出,“在計(jì)算過(guò)程中可以將輸入樣本中任意兩個(gè)token通過(guò)一個(gè)計(jì)算步驟直接聯(lián)系起來(lái),解決了傳統(tǒng)的門控機(jī)制中,選擇兩個(gè)或多個(gè)專家參與計(jì)算時(shí)關(guān)聯(lián)性缺失的問(wèn)題。”
Attention Router網(wǎng)絡(luò)結(jié)構(gòu)通過(guò)創(chuàng)造一種專家間協(xié)同性的度量方法,能夠使得專家之間協(xié)同處理數(shù)據(jù)的水平和效能大為提升,從而實(shí)現(xiàn)以更少的激活參數(shù),達(dá)到更高的智能水平。
除此之外,大模型在企業(yè)側(cè)應(yīng)用過(guò)程中,不可避免的要解決幻覺(jué)的問(wèn)題,大模型在企業(yè)側(cè)并不像是在消費(fèi)端,消費(fèi)側(cè)的模型只要參數(shù)夠大,數(shù)據(jù)量夠大,即便有一些質(zhì)量不佳的數(shù)據(jù),偶爾產(chǎn)生一些“幻覺(jué)”問(wèn)題也是可以接受,而企業(yè)側(cè)的應(yīng)用并不是這樣。
在企業(yè)側(cè),大模型需要精度更高,準(zhǔn)確率更高,甚至對(duì)于有些行業(yè)而言,0.01%的錯(cuò)誤拒絕率都是難以容忍的。這就對(duì)企業(yè)側(cè)應(yīng)用大模型產(chǎn)品提出了更高的要求。
對(duì)于鈦媒體APP提出的幻覺(jué)方面的擔(dān)憂,浪潮信息人工智能與高性能應(yīng)用軟件部AI軟件架構(gòu)師Allen Wang認(rèn)為,對(duì)于大模型幻覺(jué)問(wèn)題,業(yè)內(nèi)目前已經(jīng)有很多方式方法進(jìn)行避免,“業(yè)內(nèi)比較常見(jiàn)的事通過(guò)模型的微調(diào)、小樣本學(xué)習(xí),或者外掛知識(shí)庫(kù)的形式,能有效解決大模型幻覺(jué)的問(wèn)題。”Allen Wang如是說(shuō)。
另外,Allen Wang也進(jìn)一步告訴鈦媒體APP,不久前,浪潮信息也剛剛發(fā)布了EPAI 企業(yè)大模型開(kāi)發(fā)平臺(tái),包含各種增強(qiáng)式技術(shù)及模塊化的技術(shù),很大程度上可以幫助企業(yè)處理幻覺(jué)問(wèn)題。以微調(diào)數(shù)據(jù)舉例,EPAI所擁有覆蓋范圍廣泛的1億+基礎(chǔ)數(shù)據(jù),也為提升模型精度做出了極大的貢獻(xiàn)。”Allen Wang強(qiáng)調(diào),“未來(lái),M32也將與EPAI企業(yè)大模型開(kāi)發(fā)平臺(tái)一同,助力企業(yè)實(shí)現(xiàn)更快的技術(shù)迭代與高效的應(yīng)用落地。”
除此之外,業(yè)內(nèi)也有不少大模型廠商在嘗試通過(guò)技術(shù)降低大模型出現(xiàn)幻覺(jué)的可能性。在前不久的IBM Think 大會(huì)上,IBM宣布正在 Hugging Face 和 GitHub 上開(kāi)源其 Granite 大模型系列,包括其最先進(jìn)的代碼大模型,這些模型在多項(xiàng)行業(yè)基準(zhǔn)上超越比之規(guī)模更大的模型。 同時(shí)還與紅帽共同推出一個(gè)開(kāi)源新方法InstructLab, 通過(guò)社區(qū)參與企業(yè)級(jí)的知識(shí)型數(shù)據(jù)與技能型數(shù)據(jù)的分類和表達(dá),并通過(guò)合成數(shù)據(jù)-驗(yàn)證的方式后,對(duì)企業(yè)的基礎(chǔ)模型進(jìn)行微調(diào)。InstructLab 首次實(shí)現(xiàn)了對(duì)預(yù)訓(xùn)練 LLM 的修改。“這是一項(xiàng)首創(chuàng)的大模型對(duì)齊技術(shù)(LAB),可將開(kāi)源社區(qū)的資源直接引入大語(yǔ)言模型,讓企業(yè)在應(yīng)用大模型的時(shí)候只需要極少的數(shù)據(jù),就可以達(dá)到更大的準(zhǔn)確率。”IBM中國(guó)系統(tǒng)實(shí)驗(yàn)室CTO孟繁晶告訴鈦媒體APP。
而通過(guò)以浪潮信息與IBM為代表的各大布局企業(yè)側(cè)大模型產(chǎn)品最新的舉措也不難看出,平臺(tái)化的大模型產(chǎn)品已經(jīng)成為當(dāng)下企業(yè)應(yīng)用大模型產(chǎn)品的最佳方式。這種開(kāi)源的方式,可以接入更多的基礎(chǔ)大模型與專家大模型,并在企業(yè)使用的時(shí)候,在確保提供高可用的大模型解決方案的同時(shí),還能進(jìn)一步降低企業(yè)使用大模型的成本門檻與技術(shù)門檻,真正做到簡(jiǎn)單、易用。
搭建好大模型平臺(tái)之后,下一步各大廠商就需要一方面在原有產(chǎn)品上不斷進(jìn)行模型的優(yōu)化,開(kāi)發(fā)新的版本,提供更高模算效率,更強(qiáng)性能的基礎(chǔ)大模型;另一方面,如何在平臺(tái)上提供更多的工具和軟件供企業(yè)側(cè)的開(kāi)發(fā)者選擇使用,以及這些工具的易用性和可用性將成為接下來(lái)各大大模型廠商角逐的重要賽道。(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達(dá))
![]()
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論