大模型排行榜,圖片來自LLM Arena截圖
在LLM Arena榜單上,OpenAI的GPT-4長期霸榜第一。Anthropic最新發(fā)布的Claude 3曾短期取代GPT-4取得第一名的桂冠,但OpenAI很快發(fā)布最新版本的GPT-4 Turbo,重新奪回第一的寶座。
LLM Arena排名前十的模型基本上被閉源模型壟。能夠擠進(jìn)前十名榜單的開源模型只有兩個(gè):一是Meta上周剛剛發(fā)布的LLama 3 70B,排名第五,也是表現(xiàn)最好的開源模型;二是“Transformer八子”之一的Aidan Gomez創(chuàng)立的Cohere近期發(fā)布的Command R+,排名第七。值得一提的是,阿里發(fā)布的開源模型Qwen1.5-72B-Chat,排名第十二,是國內(nèi)表現(xiàn)最好的開源模型。
從絕對(duì)排名上看,閉源模型仍然遙遙領(lǐng)先開源模型。但若從兩者的差距來看,并非李彥宏所說的越來越大,而是越來越小。
![]()
閉源模型與開源模型的差距,圖片來自X
昆侖萬維董事長兼CEO方漢此前曾對(duì)「甲子光年」表示,開源模型與閉源模型的差距已經(jīng)從落后2年追到僅落后4~6個(gè)月了。
什么因素會(huì)影響開源和閉源模型的能力差異?
微博新技術(shù)研發(fā)負(fù)責(zé)人張俊林認(rèn)為,模型能力增長曲線的平滑或陡峭程度比較重要。如果模型能力增長曲線越陡峭(單位時(shí)間內(nèi),模型各方面能力的增長數(shù)量,越快就類似物體運(yùn)動(dòng)的“加速度”越大),則意味著短時(shí)間內(nèi)需要投入越大的計(jì)算資源,這種情況下閉源模型相對(duì)開源模型是有優(yōu)勢(shì)的,主要是資源優(yōu)勢(shì)導(dǎo)致的模型效果優(yōu)勢(shì)。
反過來,如果模型能力增長曲線越平緩,則意味著開源和閉源模型的差異會(huì)越小,追趕速度也越快。這種由模型能力增長曲線陡峭程度決定的開源閉源模型的能力差異,可以稱之為模型能力的“加速度差”。
張俊林認(rèn)為,往后多看幾年,開源與閉源的能力是縮小還是增大,取決于在“合成數(shù)據(jù)”方面的技術(shù)進(jìn)展。如果“合成數(shù)據(jù)”技術(shù)在未來兩年能獲得突破,則兩者差距是有可能拉大的;如果不能突破,則開源和閉源模型能力會(huì)相當(dāng)。
所以,“合成數(shù)據(jù)”是未來兩年大語言模型最關(guān)鍵的決定性的技術(shù),很可能沒有之一。
人們對(duì)于開源模型的期待,很大程度上就在于“開源”兩個(gè)字。
開源是軟件行業(yè)蓬勃發(fā)展的決定性力量。正如360集團(tuán)創(chuàng)始人周鴻祎近期在哈佛大學(xué)演講中提到的那樣:“沒有開源就沒有Linux,沒有PHP,沒有MySQL,甚至沒有互聯(lián)網(wǎng)。包括在人工智能的發(fā)展上,如果沒有當(dāng)初谷歌開源Transformer,就不會(huì)有OpenAI和GPT。我們都是受益于開源成長起來的個(gè)人和公司。”
但是,這一次的開源模型可能要讓很多開源信徒失望了。
去年Llama 2發(fā)布后不久,就有批評(píng)聲音稱,Meta其實(shí)是在“假開源”。
比如,開源友好型風(fēng)險(xiǎn)投資公司RedPoint的董事總經(jīng)理Erica Brescia表示:“誰能向我解釋一下,如果Llama 2實(shí)際上沒有使用OSI(開放源碼計(jì)劃)批準(zhǔn)的許可證,也不符合OSD(開放源碼定義),Meta公司和微軟公司又如何稱Llama 2為開放源碼?他們是在故意挑戰(zhàn)OSS(開放源碼軟件)的定義嗎?”
的確,Llama 2并沒有遵循上述協(xié)議,而是自定義了一套“開源規(guī)則”,包括禁止使用Llama 2去訓(xùn)練其它語言模型,如果該模型用于每月用戶超過7億的應(yīng)用程序和服務(wù),則需要獲得Meta的特殊許可證。
Llama 2雖然自稱為開源模型,但僅僅開放了模型權(quán)重——也就是訓(xùn)練之后的參數(shù),但訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼等關(guān)鍵信息都未開放。
零一萬物開源負(fù)責(zé)人林旅強(qiáng)告訴「甲子光年」,現(xiàn)在說的開源模型,對(duì)比開源軟件來說,是一種介于閉源與開源的中間狀態(tài),開發(fā)者可以在其基礎(chǔ)上做微調(diào)、做RAG,但又無法像開源軟件那樣對(duì)模型本身做修改,更無法得到其訓(xùn)練源數(shù)據(jù)。
在“真開源”的開源軟件領(lǐng)域,一個(gè)顯著的特點(diǎn)是軟件源代碼共享,開源社區(qū)的開發(fā)者不僅可以反饋Bug,而且可以直接貢獻(xiàn)代碼。
比如,國產(chǎn)開源數(shù)據(jù)庫TiDB就分享過一組數(shù)據(jù),在每年更新的40%的代碼中,有40%是由外部貢獻(xiàn)者貢獻(xiàn)的。
但由于大模型的算法黑盒,僅僅開放模型權(quán)重的“半開源”,導(dǎo)致了一個(gè)結(jié)果:用Llama 2的開發(fā)者再多,也不會(huì)幫助Meta提升任何Llama 3的能力和Know-how,Meta也無法靠Llama 2獲取任何的數(shù)據(jù)飛輪。
Meta想要訓(xùn)練更強(qiáng)的Llama 3,還是只能靠自己團(tuán)隊(duì)內(nèi)部的人才、數(shù)據(jù)、GPU資源來做,還是需要做實(shí)驗(yàn)(比如Scailing Law)、收集更多的優(yōu)質(zhì)數(shù)據(jù)、建立更大的計(jì)算集群。這本質(zhì)上與OpenAI訓(xùn)練閉源的GPT-4無異。
正如李彥宏在百度內(nèi)部信中所言,開源模型并不能像開源軟件那樣做到“眾人拾柴火焰高”。
今天,很多開源模型都注意到了這個(gè)問題。比如谷歌在發(fā)布開源模型Gemma的時(shí)候,谷歌特意將其命名為“開放模型(Open Model)”而非“開源模型(Open Source Model)”。谷歌表示:開放模型具有模型權(quán)重的免費(fèi)訪問權(quán)限,但使用條款、再分發(fā)和變體所有權(quán)根據(jù)模型的具體使用條款而變化,這些條款可能不基于開源許可證。
昆侖萬維AI Infra負(fù)責(zé)人成誠在知乎上對(duì)于開源模型做了以下分級(jí):
僅模型開源(技術(shù)報(bào)告只列舉了 Evaluation)。主要利好做應(yīng)用的公司(繼續(xù)訓(xùn)練和微調(diào))和普通用戶(直接部署)
技術(shù)報(bào)告開源訓(xùn)練過程。比較詳盡的描述了模型訓(xùn)練的關(guān)鍵細(xì)節(jié)。利好算法研究。
訓(xùn)練代碼開源/技術(shù)報(bào)告開源全部細(xì)節(jié)。包含了數(shù)據(jù)配比的核心關(guān)鍵信息。這些信息價(jià)值連城,是原本需要耗費(fèi)很多GPU資源才能得到的Know-how。
全量訓(xùn)練數(shù)據(jù)開源。其他有算力資源的團(tuán)隊(duì)可以基于訓(xùn)練數(shù)據(jù)和代碼完全復(fù)現(xiàn)該模型。訓(xùn)練數(shù)據(jù)可以說是大模型團(tuán)隊(duì)最核心的資產(chǎn)。
數(shù)據(jù)清洗框架和流程開源。從源頭的原始數(shù)據(jù)(比如CC網(wǎng)頁、PDF電子書等)到 可訓(xùn)練的數(shù)據(jù)的清洗過程也開源, 其他團(tuán)隊(duì)不僅可以基于此清洗框架復(fù)現(xiàn)數(shù)據(jù)預(yù)處理過程,還可以通過搜集更多的源(比如基于搜索引擎抓取的全量網(wǎng)頁)來擴(kuò)展自己的數(shù)據(jù)規(guī)模,得到比原始模型更強(qiáng)的基座模型。
他表示,實(shí)際上大部分的模型開源諸如LLama2、Mistral、Qwen等,只做到Level-1, 像DeepSeek可以做到Level-2。 而Level-4及以上的開源一個(gè)都沒有。至今沒有一家公司開源自己的全部訓(xùn)練數(shù)據(jù)和數(shù)據(jù)清洗代碼,以至于開源模型無法被第三方完整復(fù)現(xiàn)。
這樣做的結(jié)果是: 掌握著模型進(jìn)步的核心機(jī)密(數(shù)據(jù)、配比)被大模型公司牢牢掌握在自己手里,除了大模型公司自己的團(tuán)隊(duì),沒有任何其他來自開源社區(qū)的力量可以幫助其提升下一次訓(xùn)練模型的能力。
因此,這就回到一個(gè)關(guān)鍵問題:如果開源不能借助外部力量幫助提升模型性能,為什么還要開源?
開源還是閉源,本身并不決定模型性能的高低。閉源模型并非因?yàn)殚]源而領(lǐng)先,開源模型也并非因?yàn)殚_源而落后。甚至恰恰相反,模型是因?yàn)轭I(lǐng)先才選擇閉源,因?yàn)椴粔蝾I(lǐng)先不得不選擇開源。
因此,如果一家公司做出了性能很強(qiáng)的模型,它就有可能不再開源了。
比如法國的明星創(chuàng)業(yè)公司Mistral,其開源的最強(qiáng)7B模型Mistral-7B和首個(gè)開源MoE模型8x7B(MMLU 70)是開源社區(qū)聲量最大的模型之一。 但是,Mistral后續(xù)訓(xùn)練的Mistral-Medium(MMLU-75)、Mistral-Large(MMLU-81) 均是閉源模型。
目前性能最好的閉源模型與性能最好的開源模型都是由大公司所主導(dǎo),而大公司里又屬M(fèi)eta的開源決心最大。如果OpenAI不開源是從商業(yè)回報(bào)的角度來考慮,那么Meta選擇開源讓用戶免費(fèi)試用的目的又是什么呢?
在上一季度的財(cái)報(bào)會(huì)上,扎克伯格對(duì)這件事的回應(yīng)是,Meta開源其AI技術(shù)是出于推動(dòng)技術(shù)創(chuàng)新、提升模型質(zhì)量、建立行業(yè)標(biāo)準(zhǔn)、吸引人才、增加透明度和支持長期戰(zhàn)略的考慮。
具體來說,開源帶來了諸多戰(zhàn)略好處。
首先,開源軟件通常會(huì)更安全,更可靠,而且會(huì)由于社區(qū)提供的持續(xù)反饋和審查而變得更高效。這點(diǎn)非常重要,因?yàn)榘踩茿I領(lǐng)域的最關(guān)鍵議題之一。
其次,開源軟件會(huì)時(shí)常成為行業(yè)標(biāo)準(zhǔn)。而當(dāng)其他企業(yè)基于Meta的技術(shù)棧建立標(biāo)準(zhǔn)時(shí),新創(chuàng)新就會(huì)更容易融入Meta的產(chǎn)品中。這種微妙的優(yōu)勢(shì),就是巨大的競(jìng)爭(zhēng)優(yōu)勢(shì)。
再次,開源在開發(fā)者中非常受歡迎。因?yàn)榭萍脊ぷ髡邆兛释麉⑴c到廣泛采納的開放系統(tǒng)中,這就會(huì)讓Meta吸引更多頂尖人才,從而在新興技術(shù)領(lǐng)域保持領(lǐng)先地位。同時(shí),由于Meta具有獨(dú)特的數(shù)據(jù)和產(chǎn)品集成,開源Llama基礎(chǔ)設(shè)施并不會(huì)削弱Meta的核心競(jìng)爭(zhēng)力。
Meta是大公司中開源決心最大的公司,也是收益最大的公司。盡管訓(xùn)練大模型需要耗費(fèi)幾千億美元,但自從2023年把業(yè)務(wù)重心聚焦在開源大模型上以來,Meta的股價(jià)已經(jīng)上漲了大約272%。Meta不僅從開源中收獲了名聲,也收獲了巨大的財(cái)務(wù)回報(bào)。
![]()
Meta股價(jià)走勢(shì)圖,圖片來自X
Meta最新發(fā)布的Llama 3也是開源模型。除了8B與70B兩個(gè)較小參數(shù)的模型,正在訓(xùn)練中的Llama 3 400B大概率也會(huì)是開源模型,而且有望成為第一個(gè)超越GPT-4的開源模型。
不論開源模型還是閉源模型,都需要找到合適的商業(yè)模式。
今天大模型行業(yè)逐漸形成的一個(gè)趨勢(shì)是,閉源模型更傾向做to C,開源模型更傾向于做to B。
月之暗面創(chuàng)始人楊植麟曾表示,要想做to C領(lǐng)域的Super App,就必須用自研(閉源)模型,因?yàn)?ldquo;只有自研模型才能在用戶體驗(yàn)上產(chǎn)生差異化”。
楊植麟認(rèn)為,開源模型本質(zhì)上是一種to B的獲客工具,或者是在Super App之外的長尾應(yīng)用,才可能基于開源模型去發(fā)揮數(shù)據(jù)的優(yōu)勢(shì)或場(chǎng)景的優(yōu)勢(shì)。
但開源模型無法構(gòu)建產(chǎn)品壁壘。比如,在海外有幾百個(gè)基于開源擴(kuò)散模型Stable Diffusion的應(yīng)用出現(xiàn),但最后其實(shí)沒有任何一個(gè)跑出來。
其次,無法在開源技術(shù)的基礎(chǔ)上通過數(shù)據(jù)的虹吸效應(yīng)讓模型持續(xù)地優(yōu)化,因?yàn)殚_源模型本身是分布式部署,沒有一個(gè)集中的地方接收數(shù)據(jù)。
相比之下,開源模型更加適合在to B領(lǐng)域落地。
零一萬物開源負(fù)責(zé)人林旅強(qiáng)告訴「甲子光年」,toB是一單一單直接從客戶身上賺錢,提供的不是產(chǎn)品,而是服務(wù)和解決方案,而且是一個(gè)定制化的服務(wù)。做服務(wù)是用開源還是閉源?To B的客戶肯定首選開源模型,因?yàn)椴粌H能省下授權(quán)費(fèi)用,還有更高的定制空間。
開源模型往往被當(dāng)成一種最便宜的獲得銷售線索的手段。廠商可通過幾十B或以下規(guī)模的開源模型擴(kuò)大用戶群體,以獲取銷售線索、證明技術(shù)實(shí)力。如果客戶有更多定制化需求,模型廠商也可以提供更多的服務(wù)。
同時(shí),開源與閉源并非一個(gè)單選題,很多公司都采用了開源與閉源雙輪驅(qū)動(dòng)的戰(zhàn)略,比如智譜AI、百川智能、零一萬物等等。
王小川就認(rèn)為,從to B角度,開源閉源其實(shí)都需要。未來80%的企業(yè)會(huì)用到開源的大模型,因?yàn)殚]源沒有辦法對(duì)產(chǎn)品做更好的適配,或者成本特別高,閉源可以給剩下的20%提供服務(wù)。二者不是競(jìng)爭(zhēng)關(guān)系,而是在不同產(chǎn)品中互補(bǔ)的關(guān)系。”
不論開源還是閉源,大模型商業(yè)化面臨的根本問題是,如何降低推理成本。只有降低了推理成本,大模型才有可能真正大規(guī)模落地。
今天,開源與閉源陣營分別有自己的支持者。但如果參考iOS與安卓操作系統(tǒng)的發(fā)展軌跡來看,彼此之間的良性競(jìng)爭(zhēng)大大促進(jìn)了產(chǎn)品的迭代與用戶體驗(yàn)的升級(jí)。這才是開閉源之爭(zhēng)最終的價(jià)值。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論