萬相2.6系列模型的發(fā)布,再度印證了一件事,只要阿里云提提速,全球大模型產(chǎn)業(yè)就會上一個強(qiáng)度。
阿里云將大模型戰(zhàn)火燒到了多模態(tài)領(lǐng)域,這在行業(yè)預(yù)期之內(nèi)。今年以來,多模態(tài)模型的調(diào)用量大規(guī)模增長,因為隨著大模型的加速落地,行業(yè)很快發(fā)現(xiàn),文本能解決的問題有限,現(xiàn)實世界天然就是多模態(tài)的輸入輸出形態(tài),多模態(tài)模型預(yù)計成為未來一段時間產(chǎn)業(yè)競爭的主線。
行業(yè)預(yù)期之外的是,阿里云在多模態(tài)領(lǐng)域的追趕和落地效率。以往阿里云并不以多模態(tài)模型見長,不過就像谷歌聯(lián)合創(chuàng)始人謝爾蓋?布林所言,真正解決問題的是算法改進(jìn),過去十年里,算法層面的進(jìn)步,其實跑得比算力提升還快。
阿里目前沒有披露整體算法的技術(shù)細(xì)節(jié),有據(jù)可查的是,通義萬相在模型結(jié)構(gòu)上集成了多項創(chuàng)新技術(shù),可對輸入?yún)⒖家曨l進(jìn)行多模態(tài)聯(lián)合建模與學(xué)習(xí),參考具有時序信息的主體情緒、姿態(tài)和多角度全面視覺特征,同時提取音色、語速等聲學(xué)特征,在生成階段作為參考條件控制,實現(xiàn)從畫面到聲音的全感官全維度一致性保持與遷移。
在AI軍備競賽中,新模型往往只是阿里云的沖鋒號,更值得關(guān)注的,是阿里云三位一體的“打擊”能力:首先拿出世界第一梯隊級別的閉源模型,掌握技術(shù)和商業(yè)的主動權(quán),然后做該領(lǐng)域的全開源,應(yīng)用門檻大幅降低,應(yīng)用生態(tài)加速繁榮,最后是讓AI落地到產(chǎn)業(yè),阿里云提供體系化的工程能力。
在所有關(guān)于AI的敘事邏輯中,模型都是原點,但是,對于要不要自研模型,縱使頭部廠商也有分歧。
例如早期OpenAI和微軟的合作,憑借對OpenAI的前瞻性投資,微軟拿到了GPT大模型的優(yōu)先使用權(quán),但OpenAI并不滿足于成為微軟體系內(nèi)的模型供應(yīng)商,雙方早期緊密的綁定關(guān)系早已出現(xiàn)裂痕。
AWS信奉模型自由,“沒有一個大模型能滿足所有客戶”,于是AWS引入各大模型托管到自家平臺,然而,頂級模型具有稀缺性,要么在競爭對手那,要么模型企業(yè)傾向于自己提供服務(wù),用戶無法獲得最好的模型體驗。
和微軟、AWS不同,阿里云堅定地走上了另一條路,堅定自研大模型,尋根究底的話,在于不同廠商對模型的認(rèn)知不同。如果把模型視作最根本的核心競爭力,那么就必然要掌握在自己手中,反之則可以通過合作等方式來補(bǔ)足。
阿里云的觀點是,未來模型將運行在所有計算設(shè)備中,并具備可持久記憶,端云聯(lián)動的運行狀態(tài),甚至可以隨時更新參數(shù),自我迭代,類似今天的OS運行在各種環(huán)境之中。
對于一個操作系統(tǒng)級別的新技術(shù),阿里巴巴理所當(dāng)然地選擇舉全公司之力投入。隨著時間的推移,微軟和亞馬遜也紛紛加大自研模型的投入,不再過度依賴其他模型廠商的供應(yīng),這也從側(cè)面印證了阿里云早期戰(zhàn)略預(yù)判的正確性。
回到模型本身,自研領(lǐng)先的閉源模型,對云廠商而言不僅是技術(shù)的象征,更是一種戰(zhàn)略級資源。通義千問旗艦?zāi)P蚎wen3-Max性能超過GPT5、Claude Opus 4等,躋身全球前三,頂尖閉源模型吸引了大量開發(fā)者、企業(yè)和合作伙伴在其上構(gòu)建應(yīng)用,形成高粘性網(wǎng)絡(luò)效應(yīng),阿里云得以在產(chǎn)業(yè)鏈上占據(jù)主動權(quán)。
再以萬相2.6系列為例,國內(nèi)用戶也能使用到Sora2級別的能力,其不僅是全球功能最全的視頻生成模型,該系列模型面向?qū)I(yè)影視制作和圖像創(chuàng)作場景進(jìn)行了全面升級,也是國內(nèi)首個支持角色扮演功能的視頻模型,同時支持音畫同步、多鏡頭生成及聲音驅(qū)動等功能。
模型領(lǐng)域有突出的馬太效應(yīng),一步領(lǐng)先,步步領(lǐng)先。萬相模型家族已支持文生圖、圖像編輯、文生視頻、圖生視頻、人聲生視頻、動作生成、角色扮演及通用視頻編輯等10多種視覺創(chuàng)作能力,已廣泛應(yīng)用于AI漫劇、廣告設(shè)計和短視頻創(chuàng)作等領(lǐng)域。
自研領(lǐng)先閉源模型,是云廠商從技術(shù)能力到商業(yè)生態(tài)、從競爭壁壘到戰(zhàn)略主動權(quán)的核心引擎,也是未來競爭格局中最關(guān)鍵的籌碼。
中國廠商素來在開源技術(shù)圈聲量不大,拿得多貢獻(xiàn)得少,到了大模型時代,阿里云成為國內(nèi)最早開源自研大模型的“大廠”,也是全球唯一一家積極研發(fā)先進(jìn)AI模型并且全方位開源的云計算廠商,業(yè)界率先實現(xiàn)“全尺寸、全模態(tài)”的全面開源。
阿里內(nèi)部達(dá)成共識,通義千問選擇開放路線,是為了打造AI時代的Android。在LLM時代,開源模型創(chuàng)造的價值和能滲透的場景,會遠(yuǎn)遠(yuǎn)大于閉源模型。
海外企業(yè)反而開始秘而不宣,不論是OpenAI、Anthropic這些大模型廠商,還是谷歌等巨頭,甚至一開始走開源路線的Meta,都走上了閉源路線。
從2023年至今,阿里通義團(tuán)隊已開源300多款模型,包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列。
「全模態(tài)」指的是開源文本生成模型、視覺理解/生成模型、語音理解/生成模型、文生圖及視頻模型等;「全尺寸」指的是開源模型覆蓋0.5B、0.6B、1.5B、1.7B、3B、4B、7B、8B、14B、30B、32B、72B、110B、235B、480B等參數(shù),同時Qwen支持中、英、法、德、西、俄、日、韓、越、阿拉伯等119種語言及方言。
阿里提供了各種場景下的更好模型,這是由市場決定的,客戶需求分散,行業(yè)場景千差萬別,預(yù)算、時延、部署要求完全不同,某種程度上和AWS“沒有一個大模型能滿足所有客戶”的理念類似,但是阿里云優(yōu)先由自己來提供大語言模型、多模態(tài)模型,以及不同尺寸、不同成本、不同部署形態(tài)的模型組合。
對于全球開發(fā)者而言,Qwen開源模型已經(jīng)成為依賴,美國AI專家Nathan Lambert發(fā)出“硅谷建立在Qwen之上”的驚嘆,谷歌前CEO施密特甚至表示擔(dān)心這將削弱美國技術(shù)領(lǐng)導(dǎo)力,因為大多數(shù)國家和公司會選擇開源的中國開源大模型。
截至目前,通義千問Qwen衍生模型數(shù)量已突破18萬,遠(yuǎn)超Meta Llama系列模型;通義千問Qwen在全球下載量超7億,據(jù)彭博統(tǒng)計,截至2025年10月,千問Qwen下載量也已超越Llama模型,通義成為事實意義上的全球第一AI開源模型。
開源對于阿里云也大有裨益,作為AI和云計算市場的追趕者,開源模型讓更多企業(yè)和開發(fā)者參與,也讓阿里云成為底層規(guī)范和實踐的參考,吸引更多的用戶使用阿里云生態(tài),這是一個雙贏局面。
在一個高度依賴算力、數(shù)據(jù)和資本的賽道里,大模型天然有走向“寡頭化”的風(fēng)險。少數(shù)公司掌握最強(qiáng)模型、最先進(jìn)算力,其余玩家只能圍繞API做應(yīng)用,行業(yè)創(chuàng)新的天花板被提前鎖死。
阿里的開源,在某種程度上拉低了這條門檻。它讓更多開發(fā)者、中小企業(yè)和行業(yè)玩家,有機(jī)會直接參與到底層模型與工程體系中,而不是永遠(yuǎn)停留在調(diào)用者的位置。
過去一年,阿里云AI算力增長超5倍,AI存力增長4倍多,頭部車企正在基于Qwen-VL定制了自己的VLA和世界模型,數(shù)十家具身智能企業(yè)在和通義進(jìn)行合作,甚至連競爭對手在進(jìn)行具身領(lǐng)域的技術(shù)探索中,也使用了Qwen系列模型。
這說明,阿里云的能力邊界早已超出模型之外,有了頂級閉源模型作標(biāo)桿,開源模型實現(xiàn)能力下沉和生態(tài)繁榮,阿里云讓前沿模型轉(zhuǎn)化為產(chǎn)業(yè)價值的關(guān)鍵,就在于體系化的AI服務(wù)。
過去兩年中,產(chǎn)業(yè)鏈廠商都在加速推出各類工具和服務(wù),以支持生成式AI的完整工程化流水線,不再局限于對生成式AI模型進(jìn)行簡單的提示(prompt)調(diào)用,而是蔓延到數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練/精調(diào)、模型管理、評估、觀測等模型全生命周期工具。
以時下火熱的自動駕駛和具身智能為例,需要多模態(tài)模型端到端的服務(wù)。其中,汽車自動駕駛需處理采集車與量產(chǎn)車回傳的海量圖像數(shù)據(jù),傳統(tǒng)CV小模型的語義理解弱、泛化差、準(zhǔn)確率低。
采用通義千問多模態(tài)大模型Qwen3-VL后,可一次性為圖像打上數(shù)百個語義標(biāo)簽,泛化能力與檢索準(zhǔn)確率較傳統(tǒng)方案提升50%以上,車企既可直接調(diào)用其云端服務(wù)處理難例場景,又可依托其開源開放特性自主微調(diào)模型,大幅降低標(biāo)注與迭代成本。該方案已落地比亞迪、卓馭、元戎等廠商。
在具身智能研發(fā)中,Qwen-VL在云端數(shù)據(jù)標(biāo)注階段,可顯著提升標(biāo)注效率與數(shù)據(jù)質(zhì)量,在端側(cè),面向Vision-Language-Action(VLA)架構(gòu)的具身智能企業(yè)基于Qwen-VL開展后訓(xùn)練,加速了具身智能系統(tǒng)的工程化落地與高效迭代。
工程化能力的優(yōu)勢就在于它將模型的能力轉(zhuǎn)化為可復(fù)用、可擴(kuò)展、可落地的業(yè)務(wù)工具,極大降低了標(biāo)注成本、訓(xùn)練成本和迭代時間,同時保證了系統(tǒng)的穩(wěn)定性與可控性。
智能硬件也是多模態(tài)模型一個充滿想象空間的市場,雷鳥V3 AI眼鏡融合Qwen-VL、Qwen-Audio,AI識別準(zhǔn)確率達(dá)98%;創(chuàng)維電視和閨蜜機(jī)依托Qwen-VL與CosyVoice,實現(xiàn)99%意圖識別精度的深度內(nèi)容搜索;聽力熊V8基于Qwen-Omni和Qwen-VL能力,通過拍照觸發(fā)AI講解,交互頻次翻倍。多模態(tài)能力正讓AI深度融入物理世界,重塑終端體驗。
此外,在金融場景非結(jié)構(gòu)化數(shù)據(jù)的處理階段,Qwen-VL可實現(xiàn)材料解析效率提升70%以上,定損、投研等流程從小時級壓縮至分鐘級。
結(jié)合如上實踐來看,體系化AI工程的核心,就是把大模型的能力從實驗室搬到產(chǎn)業(yè)場景,其中涉及到復(fù)雜的場景拆解和能力重組,它不僅包括模型本身的訓(xùn)練和優(yōu)化,還涵蓋數(shù)據(jù)采集與標(biāo)注、算力調(diào)度、分布式訓(xùn)練、推理加速、微調(diào)與定制化部署等全鏈路能力,這也是阿里云作為云廠商的先天優(yōu)勢。
三位一體的全棧AI體系,使得阿里云有能力完成AI價值傳導(dǎo)的閉環(huán),真正把大模型從實驗室推向現(xiàn)實世界,把能力優(yōu)勢轉(zhuǎn)化為產(chǎn)業(yè)競爭力,也讓整個行業(yè)的格局隨之重塑。(作者|張帥,編輯|蓋虹達(dá))
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論