在线无码播放一级无毛AA片,日韩欧美大片免费中日三级片

AI大模型帶來(lái)的浪潮已經(jīng)席卷全球，時(shí)至今日幾乎所有的科技企業(yè)都在AI大模型方面有所布局。

隨著這一輪AI技術(shù)的快速發(fā)展，我們不難看出，AI已經(jīng)從“卷”技術(shù)走向“卷”應(yīng)用的階段，如果說(shuō)2023年是生成式AI元年的話，那么2024年必將是生成式AI企業(yè)側(cè)應(yīng)用落地的元年。

大模型從卷參數(shù)走向性價(jià)比

回看2023年，各大廠商爭(zhēng)先恐后的發(fā)布各自大模型產(chǎn)品，而當(dāng)產(chǎn)品發(fā)布后，幾乎所有人關(guān)注的焦點(diǎn)都在參數(shù)有多大上。彼時(shí)，人們似乎不約而同都在以參數(shù)的大小衡量大模型產(chǎn)品的好壞。

生成式AI“鼻祖”發(fā)布的GPT-3.5據(jù)報(bào)道可達(dá)1750億個(gè)參數(shù)，而后續(xù)推出的GPT-4雖然未知參數(shù)，但顯然要比GPT-3.5更高；中國(guó)移動(dòng)發(fā)布的“九天智能基座”大模型也擁有千億級(jí)別參數(shù)；通義千問(wèn)最新開(kāi)源的模型達(dá)到1100億參數(shù)； Google AI 發(fā)布了 Pathways Language Model (PaLM)，擁有 5400 億個(gè)參數(shù)，在各種自然語(yǔ)言處理基準(zhǔn)測(cè)試中取得了最先進(jìn)的結(jié)果；浪潮信息發(fā)布的“源1.0”1大模型具有2457億參數(shù)......

而隨著參數(shù)數(shù)量的增加，也意味著訓(xùn)練模型需要更多的計(jì)算資源和訓(xùn)練時(shí)間。訓(xùn)練一個(gè)擁有數(shù)十億甚至數(shù)百億參數(shù)的 LLM，往往需要大量的計(jì)算設(shè)備和電力消耗。此外，龐大的參數(shù)也帶來(lái)更高的模型復(fù)雜度，對(duì)模型的訓(xùn)練和調(diào)優(yōu)也提出了更大的挑戰(zhàn)。

以一個(gè)5000億參數(shù)的大模型為例，訓(xùn)練這個(gè)大模型需要2萬(wàn)張H100的數(shù)據(jù)中心集群，需要大概10億美元的建設(shè)成本，而每年訓(xùn)練所消耗的電費(fèi)將達(dá)到5.3億元人民幣，無(wú)論對(duì)哪個(gè)企業(yè)而言，這都將是一筆難以估算與接受的開(kāi)銷。

在此背景下，AI大模型要想在企業(yè)側(cè)大規(guī)模落地應(yīng)用，企業(yè)就需要更多的考慮到算力效率，從模算效率層面，整體評(píng)估與衡量模型的精度和開(kāi)銷。對(duì)此，浪潮信息人工智能首席科學(xué)家吳韶華告訴鈦媒體APP，算力效率越高，意味著單位算力投入的情況下，模型精度回報(bào)越高，造成的算力浪費(fèi)現(xiàn)象越小，對(duì)模型的訓(xùn)練非常有利。而所謂模算效率，正是追求并實(shí)現(xiàn) “模型能力更強(qiáng)且算力消耗更少”的技術(shù)方式。

“假設(shè)擁有很高的模算效率，我們基于更多token訓(xùn)練更到參數(shù)量模型就成為可能，”吳韶華對(duì)鈦媒體APP進(jìn)一步指出，“尤其是在企業(yè)側(cè)應(yīng)用的過(guò)程中，模型訓(xùn)練、推理的整體成本會(huì)隨著模算效率的提升而降低，也就進(jìn)一步降低了企業(yè)應(yīng)用AI的成本門檻。”

MoE架構(gòu)或成AI大模型最優(yōu)解

就如同互聯(lián)網(wǎng)的發(fā)展一般，消費(fèi)級(jí)的產(chǎn)品只是技術(shù)出現(xiàn)在人們眼前的渠道，而真正的技術(shù)價(jià)值還得看企業(yè)級(jí)的應(yīng)用。AI大模型在這點(diǎn)上與彼時(shí)的互聯(lián)網(wǎng)相似。隨著“產(chǎn)業(yè)AI化”進(jìn)程的推進(jìn)，企業(yè)需要找到一個(gè)能“用得起”的大模型產(chǎn)品。這時(shí)候MoE架構(gòu)的出現(xiàn)，就成為了現(xiàn)階段企業(yè)應(yīng)用大模型的最佳技術(shù)展現(xiàn)形式。

對(duì)此，吳韶華告訴鈦媒體APP，當(dāng)算力以及訓(xùn)練數(shù)據(jù)發(fā)展變緩，或者成本變高的時(shí)候，我們需要另外一種可以讓模型能力繼續(xù)進(jìn)行擴(kuò)展（scale）的創(chuàng)新方式。“基于此，今天，更好地利用一定規(guī)模的算力和數(shù)據(jù)構(gòu)建更大規(guī)模、資源消耗更少、性能更好的大語(yǔ)言模型，是產(chǎn)業(yè)面臨的核心問(wèn)題。”吳韶華強(qiáng)調(diào)。

而MoE（Mixture of Experts，混合專家模型）恰好就滿足了人們對(duì)于更大規(guī)模、更低消耗，更低算力資源占用的愿景。MoE本質(zhì)上是一種高效的scaling 技術(shù)，用較少的計(jì)算資源實(shí)現(xiàn)更大的模型規(guī)模，從而獲得更好的模型性能表現(xiàn)。

MoE作為一種由專家模型和門控模型組成稀疏門控制的深度學(xué)習(xí)技術(shù)，由多個(gè)專家模型組成，每個(gè)子模型都是一個(gè)局部模型。門控功能“稀疏性”的引入讓MoE在處理輸入數(shù)據(jù)時(shí)只激活使用少數(shù)專家模型，大部分專家模型處于未激活狀態(tài)。換言之，只有擅長(zhǎng)某一特定領(lǐng)域的模型會(huì)被派遣，為用戶提供最專業(yè)的服務(wù)，而其他模型則原地待命，靜待自己擅長(zhǎng)的領(lǐng)域到來(lái)。這種“稀疏狀態(tài)”作為混合專家模型的重要優(yōu)勢(shì)，進(jìn)一步提升了模型訓(xùn)練和推理過(guò)程的效率。

吳韶華告訴鈦媒體APP，MoE模型的一個(gè)顯著優(yōu)勢(shì)——能夠在遠(yuǎn)少于稠密模型所需的計(jì)算資源下進(jìn)行有效的預(yù)訓(xùn)練。“這意味著在相同的計(jì)算預(yù)算條件下，可以顯著擴(kuò)大模型或數(shù)據(jù)集的規(guī)模。特別是在預(yù)訓(xùn)練階段，與稠密模型相比，混合專家模型通常能夠更快地達(dá)到相同的質(zhì)量水平。”吳韶華表示。

據(jù)了解，近日浪潮信息全新發(fā)布的“源2.0-M32”（簡(jiǎn)稱M32）正是基于MoE架構(gòu)的開(kāi)源大模型，“M32包含了32個(gè)專家的MoE大語(yǔ)言模型，參數(shù)量400億并大幅提升了模型算力效率，”吳韶華告訴鈦媒體APP，“M32憑借特別優(yōu)化設(shè)計(jì)的模型架構(gòu)，在僅激活37億參數(shù)的情況下，取得了和700億參數(shù)LLaMA3相當(dāng)?shù)男阅芩?，所消耗算力僅為L(zhǎng)LaMA3的1/19。”

基于MoE架構(gòu)，M32延用源2.0非均勻流水并行的方法，綜合運(yùn)用流水線并行+數(shù)據(jù)并行的策略，為硬件差異較大訓(xùn)練環(huán)境提供了一種高性能的訓(xùn)練方法，模算效率得到了大幅提升。

其實(shí)從今年以來(lái)各大廠商發(fā)布的大模型產(chǎn)品上就不難看出，MoE架構(gòu)已經(jīng)成為當(dāng)下大模型產(chǎn)品的主流架構(gòu)之一，今年初，深度求索團(tuán)隊(duì)發(fā)布了開(kāi)源的160億參數(shù)專家模型DeepSeek MoE，而OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型也都采用了MoE架構(gòu)。

相比于Dense模型，MoE無(wú)論在可擴(kuò)展性，計(jì)算效率、訓(xùn)練效率，還是靈活性、專業(yè)化、容錯(cuò)率等方面都有著出色的表現(xiàn)，這也讓MoE架構(gòu)成為企業(yè)側(cè)應(yīng)用大模型的不二選擇。

“模更強(qiáng)，算更優(yōu)”——性能、成本全都要！

顯然，在模算效率方面，基于MoE架構(gòu)開(kāi)發(fā)的M32大模型擁有非常明顯的優(yōu)勢(shì)，這讓企業(yè)在使用M32大模型的過(guò)程中，算力資源的浪費(fèi)更少，成本更低，在這個(gè)追求降本增效的背景下，MoE更適合企業(yè)側(cè)部署大模型。

不過(guò)對(duì)于企業(yè)而言，“既要，又要”的想法肯定是每個(gè)企業(yè)都追求的，企業(yè)當(dāng)然不希望降低成本是以犧牲性能作為代價(jià)的。這時(shí)候，作為大模型提供商來(lái)說(shuō)，就需要平衡好性能與成本之間的天平。

以最近剛剛發(fā)布的M32為例，吳韶華告訴鈦媒體APP，基于對(duì)性能的考慮，此次發(fā)布的M32使用了全新的門控網(wǎng)絡(luò)——Attention Router，負(fù)責(zé)調(diào)度各個(gè)token到不同專家模型上進(jìn)行混合計(jì)算，“Attention Router是一種專家間協(xié)同性的度量方法，”吳韶華指出，“在計(jì)算過(guò)程中可以將輸入樣本中任意兩個(gè)token通過(guò)一個(gè)計(jì)算步驟直接聯(lián)系起來(lái)，解決了傳統(tǒng)的門控機(jī)制中，選擇兩個(gè)或多個(gè)專家參與計(jì)算時(shí)關(guān)聯(lián)性缺失的問(wèn)題。”

Attention Router網(wǎng)絡(luò)結(jié)構(gòu)通過(guò)創(chuàng)造一種專家間協(xié)同性的度量方法，能夠使得專家之間協(xié)同處理數(shù)據(jù)的水平和效能大為提升，從而實(shí)現(xiàn)以更少的激活參數(shù)，達(dá)到更高的智能水平。

除此之外，大模型在企業(yè)側(cè)應(yīng)用過(guò)程中，不可避免的要解決幻覺(jué)的問(wèn)題，大模型在企業(yè)側(cè)并不像是在消費(fèi)端，消費(fèi)側(cè)的模型只要參數(shù)夠大，數(shù)據(jù)量夠大，即便有一些質(zhì)量不佳的數(shù)據(jù)，偶爾產(chǎn)生一些“幻覺(jué)”問(wèn)題也是可以接受，而企業(yè)側(cè)的應(yīng)用并不是這樣。

在企業(yè)側(cè)，大模型需要精度更高，準(zhǔn)確率更高，甚至對(duì)于有些行業(yè)而言，0.01%的錯(cuò)誤拒絕率都是難以容忍的。這就對(duì)企業(yè)側(cè)應(yīng)用大模型產(chǎn)品提出了更高的要求。

對(duì)于鈦媒體APP提出的幻覺(jué)方面的擔(dān)憂，浪潮信息人工智能與高性能應(yīng)用軟件部AI軟件架構(gòu)師Allen Wang認(rèn)為，對(duì)于大模型幻覺(jué)問(wèn)題，業(yè)內(nèi)目前已經(jīng)有很多方式方法進(jìn)行避免，“業(yè)內(nèi)比較常見(jiàn)的事通過(guò)模型的微調(diào)、小樣本學(xué)習(xí)，或者外掛知識(shí)庫(kù)的形式，能有效解決大模型幻覺(jué)的問(wèn)題。”Allen Wang如是說(shuō)。

另外，Allen Wang也進(jìn)一步告訴鈦媒體APP，不久前，浪潮信息也剛剛發(fā)布了EPAI 企業(yè)大模型開(kāi)發(fā)平臺(tái)，包含各種增強(qiáng)式技術(shù)及模塊化的技術(shù)，很大程度上可以幫助企業(yè)處理幻覺(jué)問(wèn)題。以微調(diào)數(shù)據(jù)舉例，EPAI所擁有覆蓋范圍廣泛的1億+基礎(chǔ)數(shù)據(jù)，也為提升模型精度做出了極大的貢獻(xiàn)。”Allen Wang強(qiáng)調(diào)，“未來(lái)，M32也將與EPAI企業(yè)大模型開(kāi)發(fā)平臺(tái)一同，助力企業(yè)實(shí)現(xiàn)更快的技術(shù)迭代與高效的應(yīng)用落地。”

除此之外，業(yè)內(nèi)也有不少大模型廠商在嘗試通過(guò)技術(shù)降低大模型出現(xiàn)幻覺(jué)的可能性。在前不久的IBM Think 大會(huì)上，IBM宣布正在 Hugging Face 和 GitHub 上開(kāi)源其 Granite 大模型系列，包括其最先進(jìn)的代碼大模型，這些模型在多項(xiàng)行業(yè)基準(zhǔn)上超越比之規(guī)模更大的模型。同時(shí)還與紅帽共同推出一個(gè)開(kāi)源新方法InstructLab, 通過(guò)社區(qū)參與企業(yè)級(jí)的知識(shí)型數(shù)據(jù)與技能型數(shù)據(jù)的分類和表達(dá)，并通過(guò)合成數(shù)據(jù)-驗(yàn)證的方式后，對(duì)企業(yè)的基礎(chǔ)模型進(jìn)行微調(diào)。InstructLab 首次實(shí)現(xiàn)了對(duì)預(yù)訓(xùn)練 LLM 的修改。“這是一項(xiàng)首創(chuàng)的大模型對(duì)齊技術(shù)（LAB），可將開(kāi)源社區(qū)的資源直接引入大語(yǔ)言模型，讓企業(yè)在應(yīng)用大模型的時(shí)候只需要極少的數(shù)據(jù)，就可以達(dá)到更大的準(zhǔn)確率。”IBM中國(guó)系統(tǒng)實(shí)驗(yàn)室CTO孟繁晶告訴鈦媒體APP。

而通過(guò)以浪潮信息與IBM為代表的各大布局企業(yè)側(cè)大模型產(chǎn)品最新的舉措也不難看出，平臺(tái)化的大模型產(chǎn)品已經(jīng)成為當(dāng)下企業(yè)應(yīng)用大模型產(chǎn)品的最佳方式。這種開(kāi)源的方式，可以接入更多的基礎(chǔ)大模型與專家大模型，并在企業(yè)使用的時(shí)候，在確保提供高可用的大模型解決方案的同時(shí)，還能進(jìn)一步降低企業(yè)使用大模型的成本門檻與技術(shù)門檻，真正做到簡(jiǎn)單、易用。

搭建好大模型平臺(tái)之后，下一步各大廠商就需要一方面在原有產(chǎn)品上不斷進(jìn)行模型的優(yōu)化，開(kāi)發(fā)新的版本，提供更高模算效率，更強(qiáng)性能的基礎(chǔ)大模型；另一方面，如何在平臺(tái)上提供更多的工具和軟件供企業(yè)側(cè)的開(kāi)發(fā)者選擇使用，以及這些工具的易用性和可用性將成為接下來(lái)各大大模型廠商角逐的重要賽道。（本文首發(fā)于鈦媒體APP，作者｜張申宇，編輯丨蓋虹達(dá)）

本文系作者 Leo張ToB雜談授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)

2026-03-31 22:59

靖因藥業(yè)遞表港交所

2026-03-31 22:54

Snap股價(jià)漲10%

2026-03-31 22:53

振江股份：擬定增募資不超10億元

2026-03-31 22:49

康美藥業(yè)：擬1元轉(zhuǎn)讓全資子公司股權(quán)及相關(guān)資產(chǎn)

2026-03-31 22:49

伊朗稱將打擊中東地區(qū)與美高科技公司有關(guān)的企業(yè)，包括蘋果、谷歌、特斯拉、微軟等公司

2026-03-31 22:39

LME倫銅漲1.0%，報(bào)12346.11美元/噸

2026-03-31 22:32

美股光通信、存儲(chǔ)板塊走高，閃迪漲超5.4%

2026-03-31 22:29

美股鋁業(yè)股續(xù)漲，世紀(jì)鋁業(yè)大漲超13%

2026-03-31 22:26

國(guó)家數(shù)據(jù)局：完善低空算力供給體系，加強(qiáng)低空領(lǐng)域算法研發(fā)

2026-03-31 22:20

國(guó)內(nèi)貴金屬期貨夜盤走高

2026-03-31 22:17

國(guó)家數(shù)據(jù)局：要加強(qiáng)低空數(shù)據(jù)資源體系建設(shè)，擴(kuò)大公共數(shù)據(jù)資源供給

2026-03-31 22:14

奇瑞重啟 QQ 產(chǎn)品線：全新QQ3上市，起售價(jià)5.89萬(wàn)元起

2026-03-31 22:11

TOP TOY國(guó)際集團(tuán)有限公司遞表港交所

2026-03-31 22:07

焦點(diǎn)國(guó)際有限公司遞表港交所

2026-03-31 22:04

現(xiàn)貨白銀日內(nèi)漲幅擴(kuò)大至5%，報(bào)73.64美元/盎司

2026-03-31 22:02

美國(guó)2月份的招聘人數(shù)降至480萬(wàn)，創(chuàng)2020年4月來(lái)新低

2026-03-31 22:01

美國(guó)3月消費(fèi)者信心指數(shù)91.8，預(yù)期87.9

2026-03-31 22:00

利弗莫爾中概股龍頭指數(shù)跌幅擴(kuò)大至1.2%，文遠(yuǎn)知行漲12%

2026-03-31 21:59

2025重慶公積金繳存超626億元，同比增4.28%

2026-03-31 21:59

美股高開(kāi)高走，納斯達(dá)克指數(shù)漲超2%

大模型從卷參數(shù)走向性價(jià)比

MoE架構(gòu)或成AI大模型最優(yōu)解

“模更強(qiáng)，算更優(yōu)”——性能、成本全都要！

敬原創(chuàng)，有鈦度，得贊賞

大模型從卷參數(shù)走向性價(jià)比

MoE架構(gòu)或成AI大模型最優(yōu)解

“模更強(qiáng)，算更優(yōu)”——性能、成本全都要！

敬原創(chuàng)，有鈦度，得贊賞

“模更強(qiáng)，算更優(yōu)”——性能、成本全都要！

敬原創(chuàng)，有鈦度，得贊賞