本文摘自《云棲戰(zhàn)略參考》,這本刊物由阿里云與鈦媒體聯(lián)合策劃。目的是為了把各個(gè)行業(yè)先行者的技術(shù)探索、業(yè)務(wù)實(shí)踐呈現(xiàn)出來,與思考同樣問題的“數(shù)智先行者”共同探討、碰撞,希望這些內(nèi)容能讓你有所啟發(fā)。

AI 時(shí)代,大模型和云計(jì)算的結(jié)合已經(jīng)成為了行業(yè)的重要趨勢,同時(shí)也是這個(gè)時(shí)代所有技術(shù)創(chuàng)新的重要驅(qū)動(dòng)力。

一方面,所有的大模型訓(xùn)練離不開云計(jì)算,特別是隨著模型的發(fā)展、模型的參數(shù)、模型的復(fù)雜度進(jìn)一步提升,這更需要云計(jì)算提供強(qiáng)有力的支持。

另外,模型在服務(wù)層也為云計(jì)算提供了新的能力。阿里云在 2022 年首倡“Model as a Service”(模型即服務(wù)),今天這個(gè)概念已經(jīng)成為大家的共識,也成為云計(jì)算不可分割的一部分。

幾年間,阿里云已經(jīng)轉(zhuǎn)變成為全球少數(shù)大模型與云計(jì)算都全棧自研且技術(shù)領(lǐng)先的全棧人工智能提供商。大模型方面,通義模型家族也受到了全球開發(fā)者的喜愛,成為了今天全球最大的模型家族。云計(jì)算方面,通過多年努力,阿里云已經(jīng)成為全球領(lǐng)先、亞太第一的云計(jì)算公司。而這兩方面更是相輔相成的:通過一系列云計(jì)算架構(gòu)的升級,阿里云以 IaaS 層、PaaS 層、MaaS 層的三層結(jié)構(gòu)通過軟硬件一體的聯(lián)合優(yōu)化,才有今天通義大模型不斷的進(jìn)化,才有阿里云在全棧人工智能技術(shù)的領(lǐng)先地位。具體來看,阿里云全棧的技術(shù)創(chuàng)新也將圍繞模型、基礎(chǔ)設(shè)施和AI應(yīng)用開發(fā)的三個(gè)維度展開。

構(gòu)建強(qiáng)大、高效、普惠的 AI 大腦

在通往超級人工智能(ASI)的藍(lán)圖中,大模型依然是一切的基石。

阿里巴巴集團(tuán) CEO 吳泳銘認(rèn)為,通往 ASI 之路將經(jīng)歷三個(gè)階段,其中第一階段是“智能涌現(xiàn)”,特征是“學(xué)習(xí)人”。這也是過去幾年的主線,AI 逐漸具備了進(jìn)入真實(shí)世界、解決真實(shí)問題、創(chuàng)造更大價(jià)值的可能性。

過去兩年,通義家族模型能力不斷提升,不僅成為全球第一開源模型,也是中國企業(yè)選擇最多的模型。截至 2025 年 9 月,通義大模型開源 300 余個(gè)模型,覆蓋不同大小的“全尺寸”及語言、圖像、語音、視頻等“全模態(tài)”,全球下載量突破 6 億次,全球衍生模型 17 萬個(gè),穩(wěn)居全球第一。超 100 萬家客戶接入通義大模型,國際調(diào)研機(jī)構(gòu)沙利文報(bào)告顯示,2025 年上半年,中國企業(yè)級大模型調(diào)用市場中通義大模型占比第一。

在“大模型是下一代的操作系統(tǒng)”的判斷下,通義大模型家族繼續(xù)發(fā)力,在云棲大會上“七連發(fā)”:不僅公布了 6 款模型上新,還有 1 個(gè)全新品牌發(fā)布,覆蓋文本、視覺、語音、視頻、代碼、圖像全場景,在模型智能水平、Agent 工具調(diào)用、Coding 能力、深度推理、多模態(tài)乃至模型架構(gòu)等方面實(shí)現(xiàn)全面突破。

這些能力的突破都在圍繞一個(gè)核心進(jìn)行——在當(dāng)前通往 ASI 的第二個(gè)階段“自主行動(dòng)”階段中,如何讓 AI 具備在真實(shí)世界中行動(dòng)的能力?吳泳銘認(rèn)為跨越的關(guān)鍵, 首先是大模型具備 Tool Use 能力,有能力連接所有數(shù)字化工具,完成真實(shí)世界任務(wù);其次,大模型 Coding 能力的提升,可以幫助人類解決更復(fù)雜的問題,并將更多場景數(shù)字化。當(dāng) AI 具備了這些能力,人們只需要用自然語言與 AI 進(jìn)行交流,就可以讓 AI 自行編寫邏輯、調(diào)用工具、搭建系統(tǒng),完成數(shù)字世界的幾乎所有工作,并通過數(shù)字化接口來操作所有物理設(shè)備。

在通義家族中,旗艦?zāi)P?Qwen3-Max 可謂是能力最強(qiáng)、規(guī)模最大的“全能型選手”,尤其擅長處理復(fù)雜實(shí)際問題。其預(yù)訓(xùn)練數(shù)據(jù)量高達(dá) 36T tokens,總參數(shù)超過萬億;性能在全球權(quán)威評測中已超越 GPT-5、 Claude Opus 4 等頂尖模型,躋身世界前三。尤為重要的是,它在代表 Agent 核心能力的工具調(diào)用能力和 Coding 能力評測中均位列全球第一梯隊(duì)。

同時(shí),“降本增效”的高手——下一代基礎(chǔ)模型架構(gòu) Qwen3-Next 及系列模型也正式發(fā)布,通過一系列前沿的工程技術(shù),在保持卓越性能的同時(shí),大幅提升了訓(xùn)練和推理的效率。該模型總參數(shù) 80B,但僅需激活 3B 參數(shù),性能便可媲美 235B 的旗艦?zāi)P?。通過混合注意力、高稀疏度 MoE 等創(chuàng)新技術(shù),其訓(xùn)練成本相較 Qwen3-32B 銳減超過 90%,長文本推理吞吐量提升 10 倍以上。這標(biāo)志著阿里云不僅在追求模型的強(qiáng)大,更在探索如何讓這份強(qiáng)大變得高效和普惠。

除了基礎(chǔ)模型的更新迭代,在專項(xiàng)模型上阿里云也一口氣發(fā)布了多個(gè)更新和升級。這些專項(xiàng)模型各有所長,但一個(gè)共同特點(diǎn)是為 AI 與真實(shí)世界交互提供了強(qiáng)有力的技術(shù)支撐。

發(fā)展大模型 Coding 能力是通往 AGI 的必經(jīng)之路。針對高效處理編程任務(wù),編程模型 Qwen3-Coder 聯(lián)合多個(gè)頂尖代碼系統(tǒng)進(jìn)行訓(xùn)練,代碼生成、補(bǔ)全和修復(fù)能力更強(qiáng)、速度更快、安全性更高。該模型此前就廣受開發(fā)者和企業(yè)好評,開源后調(diào)用量曾在知名模型調(diào)用平臺 OpenRouter 上激增 1474%,位列全球第二。

在 AI 連接并操作真實(shí)世界的關(guān)鍵一步——視覺智能體操作和復(fù)雜場景理解方面,視覺理解模型 Qwen3-VL 增強(qiáng)了復(fù)雜的空間理解能力,能真正去理解現(xiàn)實(shí)中空間的實(shí)際情況,實(shí)現(xiàn) 3D 基礎(chǔ)訓(xùn)練,也為具身智能實(shí)現(xiàn)提供了堅(jiān)實(shí)的基礎(chǔ)。

全模態(tài)模型 Qwen3-Omni 則成功解決了以往多模態(tài)模型中常見的“模態(tài)性能權(quán)衡”難題,首次實(shí)現(xiàn)音、視、文多模態(tài)混合訓(xùn)練而各項(xiàng)能力不降反升,能像人類一樣 “聽說寫”,為車載、智能穿戴等設(shè)備提供高質(zhì)量、低延時(shí)的交互。

多模態(tài)生成模型通義萬相 Wan2.5 突破性實(shí)現(xiàn)了原生音畫同步的視頻生成,可生成匹配人聲、音效和背景音樂的視頻,時(shí)長提升至 10 秒,進(jìn)一步降低了高質(zhì)量視頻創(chuàng)作的門檻。

全新發(fā)布的語音大模型家族通義百聆,包括語音識別大模型 Fun-ASR、語音合成大模型 Fun-CosyVoice,為 AI 的“聽說”能力提供了專業(yè)級的支撐。Fun-ASR 基于數(shù)千萬小時(shí)真實(shí)語音數(shù)據(jù)訓(xùn)練而成,具備強(qiáng)大的上下文理解能力與行業(yè)適應(yīng)性;Fun-CosyVoice 可提供上百種預(yù)制音色,可以用于客服、銷售、直播、電商、消費(fèi)電子、有聲書、兒童娛樂等場景。

整體來看,視覺理解模型的升級,讓 AI 不僅能“看懂” 圖像,更能直接操作圖形界面;全模態(tài)模型 Qwen3- Omni 的亮相,則讓原來需要多個(gè)模型配合才能實(shí)現(xiàn)的 AI 與物理世界交互的能力,可以更高效低延時(shí)地在一個(gè)模型內(nèi)實(shí)現(xiàn),提高 AI 與真實(shí)世界交互的能力。這些升級,完美呼應(yīng)了 ASI 藍(lán)圖中“連接真實(shí)世界全量數(shù)據(jù)”的核心要求,是 AI 從虛擬走向現(xiàn)實(shí)的必要前提。

圍繞超級智能的系統(tǒng)性模型升級,意味著通義家族不再僅僅是一系列獨(dú)立的模型,而是正在構(gòu)筑一個(gè)越來越完 備、強(qiáng)大且高效的“大模型操作系統(tǒng)”。這將為 Agent 的爆發(fā)提供核心引擎,更為通往 ASI 的“自我迭代”階段奠定最關(guān)鍵的能力基石。

AI 基礎(chǔ)設(shè)施全棧升級

真正的“智算引擎”

沒有堅(jiān)實(shí)的基礎(chǔ)設(shè)施,再強(qiáng)的模型也難以落地。在這一邏輯下,阿里云持續(xù)強(qiáng)化從服務(wù)器、網(wǎng)絡(luò)、存儲到智算集群的 AI Infra 布局,打造支撐萬億參數(shù)模型與復(fù)雜智能體系統(tǒng)的算力引擎。

為了支撐當(dāng)下高性能 AI 芯片的計(jì)算需求,阿里云推出了新一代磐久超節(jié)點(diǎn)服務(wù)器,在一個(gè)機(jī)柜中可容納高達(dá) 128 顆 AI 芯片。這背后是一整套針對高密度算力的系統(tǒng)級工程創(chuàng)新:350 千瓦的單柜功率、精細(xì)化的液冷系統(tǒng),以及高可靠供電設(shè)計(jì),確保在高熱負(fù)載、高并發(fā)計(jì)算環(huán)境下依然保持穩(wěn)定運(yùn)行。

在硬件兼容性上,磐久服務(wù)器支持產(chǎn)業(yè)主流的開放架構(gòu),可靈活兼容不同廠商的 AI 芯片與 Scale-up 協(xié)議,實(shí)現(xiàn)從單節(jié)點(diǎn)到超節(jié)點(diǎn)的高效組裝。這種“模塊化 + 開放式”的設(shè)計(jì),使 AI 算力的部署與擴(kuò)展更加靈活,為后續(xù)的模型訓(xùn)練、推理和強(qiáng)化學(xué)習(xí)提供了堅(jiān)實(shí)的算力基礎(chǔ)。

隨著模型規(guī)模邁向萬億參數(shù)、集群規(guī)模擴(kuò)展到“萬卡” 甚至“十萬卡”級別,網(wǎng)絡(luò)性能成為 AI 集群效率的生命線。阿里云此次推出的 HPN 8.0 高性能網(wǎng)絡(luò)架構(gòu),是全球首批實(shí)現(xiàn)“訓(xùn)推一體”設(shè)計(jì)的 AI 網(wǎng)絡(luò)。

在硬件層面,HPN 8.0 通過自研交換機(jī)、光模塊、網(wǎng)卡等核心組件,實(shí)現(xiàn)從 7.0 版本的萬卡規(guī)模躍升至數(shù)十萬卡互聯(lián)。配合自研的 RDMA 通信協(xié)議和優(yōu)化的通信庫,極大減少了大模型訓(xùn)練中的通信延遲與帶寬瓶頸,使得 GPU 在大規(guī)模分布式訓(xùn)練中能實(shí)現(xiàn)更高的計(jì)算利用率。

在系統(tǒng)層面,HPN 8.0 已支持跨數(shù)據(jù)中心、跨可用區(qū) (AZ)、跨 Region 的高帶寬網(wǎng)絡(luò)架構(gòu),真正實(shí)現(xiàn)了智算資源的“跨域協(xié)同”。無論是預(yù)訓(xùn)練、推理還是強(qiáng)化學(xué)習(xí),都能在超大規(guī)模環(huán)境中保持通信高效與算力彈性。

AI 不僅“算得快”,還要“讀得快”、“寫得快”。CPFS 面向 AI 訓(xùn)練與推理場景進(jìn)行了深度優(yōu)化,單客戶端吞吐量高達(dá) 40GB/s,性能相比傳統(tǒng)方案提 升 60%。針對業(yè)界普遍存在的“小文件 I/O 瓶頸”, CPFS 實(shí)現(xiàn)了百萬級IOPS 的卓越性能,顯著提升了數(shù)據(jù)加載與模型訓(xùn)練效率。

更關(guān)鍵的是,阿里云引入了智能分層存儲機(jī)制:熱數(shù)據(jù) 駐留 CPFS 冷數(shù)據(jù)自動(dòng)轉(zhuǎn)移至 OSS。系統(tǒng)可自動(dòng)感知訪問頻次,進(jìn)行冷熱分層與成本優(yōu)化。這意味著開發(fā)者可以在保持高性能的同時(shí),將存儲成本降到極致。

進(jìn)入多模態(tài)時(shí)代,AI 模型需要同時(shí)處理文本、圖像、音頻、視頻等多種數(shù)據(jù)類型。為此,OSS 進(jìn)行了全新升級, 全面支持向量化數(shù)據(jù)的存儲與索引。通過 embedding 向量桶(Vector Bucket)機(jī)制,OSS 能夠?qū)崿F(xiàn)多模態(tài)數(shù)據(jù)的高效查詢、比對與檢索,成為多模態(tài) AI 的重要“數(shù)據(jù)底座”。

當(dāng)服務(wù)器、網(wǎng)絡(luò)、存儲三者完成深度融合,真正的“智算引擎”便應(yīng)運(yùn)而生。阿里云打造的靈駿智算集群,已經(jīng)成為中國 AI 產(chǎn)業(yè)的重要支撐平臺。靈駿不僅具備超大規(guī)模和異構(gòu)算力的支持能力,還在穩(wěn)定性和運(yùn)維智能化方面達(dá)到了國際領(lǐng)先水準(zhǔn)。

靈駿支持容器、虛機(jī)、裸金屬等多種算力形態(tài),靈活適配不同訓(xùn)練需求。同時(shí),其智能化監(jiān)測系統(tǒng)可實(shí)現(xiàn) 98% 以上的故障發(fā)現(xiàn)率,通過自動(dòng)化容錯(cuò)、熱遷移與調(diào)度機(jī)制,確保大規(guī)模集群在復(fù)雜環(huán)境下的高可用性。

在體系架構(gòu)上,靈駿實(shí)現(xiàn)了存算分離與極致擴(kuò)展,通過靈活的資源調(diào)度策略,能夠根據(jù)任務(wù)需求在不同集群間動(dòng)態(tài)調(diào)配計(jì)算與存儲資源。這使得模型從訓(xùn)練到部署的全生命周期更加高效、穩(wěn)定。

多模態(tài)智能數(shù)據(jù)底座

高質(zhì)量數(shù)據(jù),決定大模型性能的邊界,也是 AI 進(jìn)化的關(guān)鍵。

構(gòu)建面向 Agentic AI 時(shí)代的多模態(tài)智能數(shù)據(jù)底座至關(guān)重要,高效、智能的多模數(shù)據(jù)管理已成為企業(yè)提升市場競爭力的關(guān)鍵。針對這一目標(biāo),阿里云的大數(shù)據(jù)和數(shù)據(jù)庫進(jìn)行全面升級。

阿里云瑤池發(fā)布“基于湖倉庫一體化”的多模數(shù)據(jù)智能管理平臺,助力企業(yè)用戶進(jìn)一步簡化數(shù)據(jù)管理流程,提升業(yè)務(wù)開發(fā)與部署效率,降低 AI 應(yīng)用落地成本。

該平臺采用湖倉庫一體化設(shè)計(jì),通過湖庫(Lakebase) 和湖倉(Lakehouse)融合架構(gòu),打破業(yè)務(wù)數(shù)據(jù)孤島。數(shù)據(jù)可在數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖之間無縫流轉(zhuǎn),極大地提升了數(shù)據(jù)利用率,降低使用成本?;诂幊?cái)?shù)據(jù)庫產(chǎn)品引擎(云原生數(shù)據(jù)庫 PolarDB、云原生數(shù)據(jù) 倉庫 AnalyticDB、云原生多模數(shù)據(jù)庫 Lindorm、云數(shù)據(jù)庫 RDS 等),此次發(fā)布的新平臺融合了 OLTP 和 OLAP,兼具數(shù)據(jù)湖的靈活性、數(shù)據(jù)倉庫的分析能力和數(shù)據(jù)庫的事務(wù)處理能力,構(gòu)建面向 AI 場景的統(tǒng)一多模態(tài)數(shù)據(jù)底座。

瑤池旗下的多模數(shù)據(jù)管理平臺 DMS:OneMeta+OneOps, OneMeta 提供支持 40 多種數(shù)據(jù)源的多模態(tài) Catalog,構(gòu)建基礎(chǔ)元數(shù)據(jù)層、業(yè)務(wù)知識層和 AI 就緒服務(wù)層;OneOps 提供數(shù)據(jù)工作流自動(dòng)化與編排,能夠大幅提升多模態(tài)的開發(fā)效率,支持百萬任務(wù)調(diào)度規(guī)模,加速企業(yè)級 AI 應(yīng)用構(gòu)建。目前,DMS 已服務(wù)超過 10 萬 + 企業(yè)客戶,其中包括富途、天財(cái)商龍、七貓等行業(yè)領(lǐng)先者。DMS 助力這些客戶將多模開發(fā)效率提高 2 倍以上,數(shù)據(jù)交付效率最高提升 5 倍,同時(shí)降低 90% 安全合規(guī)風(fēng)險(xiǎn)。

阿里云大數(shù)據(jù)平臺也面向 AI 產(chǎn)品進(jìn)行全新升級,全面支持 AI 計(jì)算和服務(wù)。

其中,阿里云 OpenLake 同樣進(jìn)行了全方位升級,滿足客戶面對物理世界全模態(tài)數(shù)據(jù)時(shí)所需的一體化數(shù)據(jù)存儲和管理系統(tǒng)。

湖倉目錄服務(wù) DLF 3.0 拓展了全模態(tài)數(shù)據(jù)支持,其作為湖倉存儲層統(tǒng)一管理核心,將存儲格式從傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),拓展至全模態(tài)數(shù)據(jù)場景,支持面向 AI 場景的 Lance、 Iceberg 以及文件數(shù)據(jù)、格式化表格數(shù)據(jù)等全類型。

計(jì)算生態(tài)方面,OpenLake 通過多引擎平權(quán)聯(lián)合計(jì)算架構(gòu),可實(shí)現(xiàn)數(shù)據(jù)無需搬家、多引擎協(xié)同處理,湖倉存儲層(DLF+Managed Storage)作為單一份數(shù)據(jù)源,向上對接全鏈路 Data + AI 引擎。OpenLake 同時(shí)推出 OpenLake Studio 多模態(tài) Data + AI 一體化開發(fā)平臺,實(shí)現(xiàn)一站式數(shù)據(jù)開發(fā) - 治理 - 運(yùn)維閉環(huán),降低多模態(tài) Data + AI 的開發(fā)門檻。

大數(shù)據(jù)平臺 MaxCompute、Hologres、EMR、Flink 等產(chǎn)品數(shù)據(jù)處理全面支持 AI Function,將 AI 能力深度集成至傳統(tǒng)數(shù)據(jù)處理流程。在 SQL 或 Python 作業(yè)中,調(diào)用 AI 模型如同調(diào)用普通函數(shù),實(shí)現(xiàn)數(shù)據(jù)處理與 AI 推理的無縫融合。MaxFrame 推出面向 AI 場景的新一代原生分布式 Python 引擎 DPE,數(shù)據(jù)處理性價(jià)比提升 1 倍,支持?jǐn)?shù)據(jù)預(yù)處理,ML 訓(xùn)練推理,異構(gòu)資源計(jì)算,Python 原生 UDF 以及 AI Function 等計(jì)算場景。

各行各業(yè)都廣泛需要多模分析檢索,大數(shù)據(jù)平臺致力于打造AI應(yīng)用的知識檢索系統(tǒng),讓數(shù)據(jù)發(fā)揮更大的價(jià)值。 EMR-Starrocks 全新支持全文檢索,OpenSearch GPU 實(shí)例驅(qū)動(dòng)向量索引構(gòu)建,整體性價(jià)比提升 10 倍, Milvus、ElasticSearch、Hologres 支持向量 + 全文混合檢索。

企業(yè)對多模數(shù)據(jù)處理和加工需求的指數(shù)級增長,讓數(shù)據(jù)庫所承載的用戶業(yè)務(wù)類型愈加復(fù)雜。數(shù)據(jù)處理亟需引入各類AI能力,讓原本復(fù)雜的企業(yè)數(shù)據(jù)分析及洞察過程,變得像日常對話一樣簡單高效,實(shí)現(xiàn)“越用越聰明,越用越好用”。

在此背景下,云棲大會上發(fā)布的“瑤池?cái)?shù)據(jù)庫 ApsaraDB Agent 智能顧問”和一系列全新產(chǎn)品能力,通過與大模型深度融合,大幅提升企業(yè)內(nèi)數(shù)據(jù)場景(開發(fā)、分析、洞察等環(huán)節(jié))的使用效率,降低技術(shù)門檻。以 Data Agent for Analytics 為例,它依托通義大模型,能夠精準(zhǔn)理解用戶意圖,自動(dòng)生成并執(zhí)行數(shù)據(jù)分析計(jì)劃,最終輸出圖文并茂的報(bào)告。

大數(shù)據(jù)平臺 DataWorks、MaxCompute、Hologres、 EMR 等產(chǎn)品推出通過自然語言交互即可實(shí)現(xiàn)數(shù)據(jù)開發(fā)、運(yùn)維等操作的智能化交互式產(chǎn)品能力,發(fā)布 Data Agent 組件,全面實(shí)現(xiàn) Agentic 化的大數(shù)據(jù)分析、開發(fā)與治理。

阿里云不斷追求技術(shù)的創(chuàng)新,為用戶提供極致的性能與高性價(jià)比的數(shù)據(jù)服務(wù)。此次云棲大會上又發(fā)布了多項(xiàng)突破 性成果。其中,Hologres 發(fā)布全新向量索引 HGraph,登 頂 Vector DB Bench 性價(jià)比榜單 QPS、Recall、 Latency、Load 四項(xiàng)第一,Milvus 相比同類型產(chǎn)品性價(jià)比提升 4 倍;云原生數(shù)據(jù)庫 PolarDB 全球首創(chuàng)基于 CXL Switch 的分布式內(nèi)存池技術(shù),網(wǎng)絡(luò)時(shí)延從 RDMA 的微秒級降低至納秒級,內(nèi)存單價(jià)降低 30%;開源大數(shù)據(jù)平臺 EMR 的表現(xiàn)上,TPC-H10T starrocks 相比前榜首性能 (QphH) 提升 111%,TPCDS 100TSpark 相比前榜首性價(jià)比 (Price/kQphDs) 提升 500%。

訓(xùn)練推理全流程優(yōu)化

在 AI 加速重塑千行百業(yè)的浪潮中,大模型的落地路徑正持續(xù)演進(jìn),逐步從通用能力構(gòu)建走向深度場景化應(yīng)用。阿里云通過預(yù)訓(xùn)練、后訓(xùn)練、推理全流程優(yōu)化,讓大模型更進(jìn)一步與業(yè)務(wù)場景融合。

大模型采用 MoE 架構(gòu)已經(jīng)成為重要的趨勢,但是 MoE 架構(gòu)相對復(fù)雜,訓(xùn)練成本與效率瓶頸是核心卡點(diǎn)。隨著參數(shù)規(guī)模的增大,如何提升算力的利用率成了支持模型快速迭代的生命線。

針對 MoE 架構(gòu)模型,人工智能平臺 PAI 創(chuàng)新推出專用訓(xùn)練引擎 paiMoE,采用統(tǒng)一調(diào)度機(jī)制、自適應(yīng)計(jì)算通信掩蓋、EP 計(jì)算負(fù)載均衡和計(jì)算顯存分離式并行等優(yōu)化手段,有效解決工作負(fù)載不同、稀疏 MoE 通信占比高等問題,在 Qwen3 訓(xùn)練過程中實(shí)現(xiàn)端到端加速比提效 3 倍,訓(xùn)練 MFU 超過 61%。

目前,paiMoE引擎兩項(xiàng)核心技術(shù)Tangram 和 ChunkFlow 已在 Qwen 全系模型的 CPT/SFT 階段作 為默認(rèn)方案,Tangram 支持多樣化細(xì)粒度 MoE 訓(xùn)練任 務(wù),一套機(jī)制支持不同的計(jì)算、通信、顯存與負(fù)載均衡 需求。ChunkFlow 針對處理變長和超長序列數(shù)據(jù)的性能 問題,提出了以 Chunk 為中心的訓(xùn)練機(jī)制。變長序列數(shù) 據(jù)重新組織為等長 Chunk 并且結(jié)合調(diào)度,有效提升訓(xùn)練 效率,研究成果被 ICML 2025 收錄。

針對 DiT 架構(gòu)模型,PAI 推出訓(xùn)練推理一體化加速引擎 paiFuser,通過計(jì)算圖優(yōu)化、顯存復(fù)用、通信壓縮、動(dòng)態(tài)調(diào)度等手段,顯著降低資源消耗,提升系統(tǒng)吞吐。在 8 卡并行推理場景下,視頻生成耗時(shí)最高減少 80% 以上,在保障畫質(zhì)前提下實(shí)現(xiàn)“分鐘級”甚至“秒級” 輸出,為短視頻生產(chǎn)、沉浸式 VR、AIGC 創(chuàng)意工具等時(shí)效敏感型業(yè)務(wù)提供堅(jiān)實(shí)底座。

在推理層,通過大規(guī)模 EP、PD/AF 分離、權(quán)重優(yōu)化、LLM 智能路由在內(nèi)的全鏈路優(yōu)化,實(shí)現(xiàn)推理效率顯著提升:推理吞吐 TPS 增加 71%,時(shí)延 TPOT 降低 70.6%,擴(kuò)容時(shí)長降低 97.6%。

此外,PAI-EAS 重磅推出企業(yè)級 EP 解決方案,助力千億參數(shù) MoE 模型以更低的成本、更高的效率服務(wù)于線上業(yè)務(wù)。PAI-EAS 提供分布式推理能力,通過多機(jī) Prefill-Decode-EP 分離架構(gòu),結(jié)合 LLM 智能路由和 MoE 分布式推理調(diào)度引擎 Llumnix,能顯著提升推理速度和資源利用率以降低模型使用成本,做到首 Token 生成響應(yīng)時(shí)間降低 92%,端到端服務(wù)吞吐提升超過 5 倍。 同時(shí),PAI-ModelGallery 支持包含 Qwen、 DeepSeek 在內(nèi)的 300 多個(gè)模型的零代碼一鍵后訓(xùn)練、評測、部署。

近兩年,行業(yè)焦點(diǎn)從追求參數(shù)和通用能力的大模型預(yù)訓(xùn)練,逐漸轉(zhuǎn)向更具落地價(jià)值的后訓(xùn)練階段。Qwen 等高性能開源大模型以強(qiáng)大基礎(chǔ)能力為企業(yè)提供了理想起點(diǎn),再結(jié)合行業(yè)高質(zhì)量數(shù)據(jù)開展后訓(xùn)練,企業(yè)既能精準(zhǔn)解決業(yè)務(wù)問題,還能突破通用模型瓶頸、實(shí)現(xiàn)垂直領(lǐng)域的專精。

構(gòu)建從預(yù)訓(xùn)練到后訓(xùn)練的完整演進(jìn)路徑,正成為企業(yè)打造專屬 AI 大腦的核心,加速千行百業(yè)智能化轉(zhuǎn)型。行業(yè)也已達(dá)成共識:只有經(jīng)過深度的“后訓(xùn)練”,讓模型理解行業(yè)語境、熟悉業(yè)務(wù)流程,它才能從“能用” 走向“好用”。

后訓(xùn)練不僅關(guān)乎算法層的優(yōu)化,更依賴底層算力、平臺能力與應(yīng)用層協(xié)同,確保全鏈路的可行性與穩(wěn)定性,用戶需要的是一個(gè)安全穩(wěn)定、性能卓越且功能全面的工程化平臺,以支撐后訓(xùn)練的數(shù)據(jù)、訓(xùn)練、部署的全流程。

阿里云依托人工智能平臺 PAI、云原生大數(shù)據(jù)計(jì)算服務(wù) MaxCompute 等系列產(chǎn)品,以穩(wěn)定、高效、全能的方案優(yōu)勢,全面打通從數(shù)據(jù)預(yù)處理、模型訓(xùn)練到推理部署的全鏈路,助力企業(yè)高效構(gòu)建具備領(lǐng)域深度的 Agentic AI 應(yīng)用。大模型后訓(xùn)練解決方案將企業(yè)從繁重的底層工程中解放出來,專注于業(yè)務(wù)創(chuàng)新。

同時(shí),阿里云還推出了靈活、易用、高效的大規(guī)模 強(qiáng)化學(xué)習(xí)訓(xùn)練框架 PAI-Chatlearn,支持 RLHF、 DPO、GRPO 等多種先進(jìn)的 Alignment 訓(xùn)練算法,支持任意模型的后訓(xùn)練任務(wù)快速配置。實(shí)驗(yàn)數(shù)據(jù)表明,Qwen3-30B-A3B 模型在相同的硬件環(huán)境下,PAI- ChatLearn 相較于開源的框架來說,訓(xùn)練的吞吐基本上提升 2 倍以上。

圍繞“數(shù)據(jù) - 訓(xùn)練 - 推理 -AI 應(yīng)用”的全生命周期,阿里云大數(shù)據(jù) AI 平臺為后訓(xùn)練提供端到端支撐,保障從基模選擇、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練到部署上線的每一個(gè)環(huán)節(jié)都能高效運(yùn)行且無縫對接。

打通模型應(yīng)用最后一公里

在大模型技術(shù)飛速發(fā)展的今天,企業(yè)普遍面臨從“擁有大模型”到“用好大模型”的挑戰(zhàn)。行業(yè)需求已從追求通用模型的“全能”,轉(zhuǎn)向在特定業(yè)務(wù)場景中實(shí)現(xiàn)高精度、低成本、易部署的智能化落地。市場亟需能夠降低技術(shù)復(fù)雜性、打通從模型到業(yè)務(wù)最后一公里的解決方案。

面向 AI Agent 進(jìn)行開發(fā),正成為當(dāng)前的關(guān)鍵解法,這也是此次云棲大會上阿里云整體技術(shù)架構(gòu)中的重要組成部分。

但 Agent 開發(fā)并非獨(dú)立環(huán)節(jié),而是貫穿前述所有技術(shù)能力,從發(fā)揮大模型能力,到結(jié)合各式各樣的數(shù)據(jù)源、抽象本地知識和概念、打通各種工具和資源,而且要突破預(yù)定義的靜態(tài)流程編排,具備自動(dòng)化、智能化分解任務(wù)的能力,以及長期記憶 ......Agent 開發(fā)中還有大量工作需要探索。

這個(gè)過程中,作為全鏈路大模型服務(wù)與 Agent 應(yīng)用開發(fā)平臺,阿里云百煉從規(guī)劃決策、信息管理、工具調(diào)用各個(gè)方面,為開發(fā)者們提供了全面支持,成為加速 AI 滲透和規(guī)模化應(yīng)用的關(guān)鍵。具體來看,平臺上形成了 “1+2+7”的企業(yè)級 Agent 體系:一套模型服務(wù)、兩種開發(fā)模式、七大關(guān)鍵能力。

其中,兩種開發(fā)模式包括高代碼到低代碼的全方位支持。云棲大會上發(fā)布了全新的 Agent 開發(fā)框架 ModelStudio-ADK,讓專業(yè)開發(fā)者能高效構(gòu)建具備自主決策、多輪反思能力的復(fù)雜 Agent;使用 ModelStudio-ADK,1 個(gè)小時(shí)就能輕松開發(fā)一個(gè)能生成深度報(bào)告的 Deep Research 項(xiàng)目。

此外,持續(xù)升級的低代碼平臺 ModelStudio-ADP,則讓業(yè)務(wù)人員也能快速創(chuàng)建滿足特定場景需求的智能體。該平臺已廣泛應(yīng)用于金融、教育和電商等領(lǐng)域企業(yè),目前,阿里云百煉平臺已有超 20 萬開發(fā)者開發(fā)了 80 多萬個(gè) Agent。據(jù)介紹,網(wǎng)商銀行基于 ModelStudio- ADP 開發(fā)了貸款審核應(yīng)用,支持合同、發(fā)票、營業(yè)執(zhí)照等 26 種憑證,以及店面門頭、餐飲廚房、就餐區(qū)、貨架商品等超過 400 種細(xì)粒度物體的精準(zhǔn)識別,準(zhǔn)確率超 95%,其任務(wù)處理時(shí)間從原來的 3 小時(shí)優(yōu)化至 5 分鐘內(nèi)。

雙軌并行的設(shè)計(jì)實(shí)際是給企業(yè)“分階段上車”的多樣化選擇:早期可以用 ADP 快速試錯(cuò),找到有效的應(yīng)用場景;一旦驗(yàn)證有效,就能無縫切換到 ADK,支撐深度定制和規(guī)?;\(yùn)行。

這樣既降低了前期的探索成本,又避免了“重構(gòu)”或“二 次開發(fā)”的重復(fù)投入,保證了業(yè)務(wù)連續(xù)性。對那些本身缺乏強(qiáng)大研發(fā)團(tuán)隊(duì)的傳統(tǒng)企業(yè)而言,這種雙軌架構(gòu)尤其友好——他們既能像互聯(lián)網(wǎng)公司一樣快速試驗(yàn),又能在規(guī)?;A段享受到成熟平臺的穩(wěn)定性和擴(kuò)展性。

在組件層面,面向 Agent 開發(fā)和部署所需的各類組件,阿里云百煉集成了工具連接 MCP Server、多模數(shù)據(jù)融合 RAG Server、沙箱工具 Sandbox Server、智能記憶存取 Memory Server 以及支付訂閱服務(wù) Pay Server 等 7 大企業(yè)級能力。以 Pay Server 為例,該服務(wù)由阿里云百煉和支付寶聯(lián)合首發(fā)推出,是業(yè)界首個(gè)為企業(yè)級 Agent 提供專業(yè)商業(yè)化支付通道的服務(wù)。目前,阿里云百煉首批上線了基于 Model Studio-ADK 開發(fā)的 DeepResearch、Agentic-RAG、Computer- Use Agent 等 Agent 應(yīng)用,用戶可免費(fèi)在線體驗(yàn)或下載代碼進(jìn)行二次開發(fā)。

圍繞 Agent 的運(yùn)行,阿里云還提供了無影 AgentBay 等一系列企業(yè)級組件,解決了 Agent 在動(dòng)態(tài)算力調(diào)用、安全沙箱、長期記憶等方面的核心難題。這相當(dāng)于為 Agent 的規(guī)模化應(yīng)用,鋪設(shè)了完善的“高速公路網(wǎng)”。

整體來看,過去兩年,百煉模型服務(wù)的能力得到了全方位的發(fā)展。阿里云憑借其全棧布局,致力于將大模型開發(fā)部署變得像“搭積木”一樣便捷,其通過整合底層算力、模型服務(wù)與開發(fā)平臺,為企業(yè)提供了一條從模型選型、精調(diào)到集成的清晰路徑,讓 AI 應(yīng)用真正變得觸手可及。

在模型服務(wù)層,阿里云百煉不僅已經(jīng)完成了全球的部署,在中國棧、國際棧提供了多種多樣的模型服務(wù);還提供極致的性能,很多模型的 Token 生成速度能夠達(dá) 到 100TPS,能夠完成大家各種各樣的業(yè)務(wù)需求。不管是在性能的 SOA、可用的 SOA 等方面都處于行業(yè)領(lǐng)先水平。

實(shí)現(xiàn)極致化的 AI 時(shí)代模型服務(wù)也需要高吞吐的能力,能夠支持高并發(fā)的業(yè)務(wù)需求,真正讓用戶實(shí)現(xiàn)隨時(shí)可用、快速調(diào)用。因此,阿里云百煉提供了各種跨鏈配置,用戶可以根據(jù)業(yè)務(wù)的需求,對效果、吞吐、彈性、延遲、成本的諸多方面進(jìn)行優(yōu)化組合。

在產(chǎn)品方面,阿里云百煉也積極推出了在線推理、Batch(批處理)的產(chǎn)品,以更具性價(jià)比的方式幫助用戶完成業(yè)務(wù)需求。

在過去 12 個(gè)月里,百煉模型服務(wù)調(diào)用量增加了 15 倍。一個(gè)繁榮的智能體生態(tài)正在阿里云上形成:超過 20 萬開發(fā)者在此構(gòu)建了逾 80 萬個(gè) Agent,它們正作為一股新質(zhì)生產(chǎn)力,深度重塑千行百業(yè)。

這股浪潮正席卷各大核心行業(yè)。在金融領(lǐng)域,通義大模型快速滲透,已覆蓋九成國家級及大型國有銀行、全部 12 家股份制銀行和排名前十的財(cái)險(xiǎn)公司。

在工業(yè)制造等復(fù)雜場景中,Agent 的價(jià)值同樣得到了驗(yàn)證。三一重工的“維修助手 Agent”顯著提升了故障排查效率;西門子的工業(yè)智能系統(tǒng)更是能自主完成訂單調(diào)度、生產(chǎn)等復(fù)雜任務(wù)。

可以看到,Agent 正以前所未有的深度和廣度滲透。而阿里云所提供的,正是這場變革背后的核心引擎:從底層的開發(fā)框架、基礎(chǔ)設(shè)施,到上層的通義系列模型,共同構(gòu)成了這股新質(zhì)生產(chǎn)力最關(guān)鍵的賦能者。

基礎(chǔ)模型是 Agent 的大腦,為其提升規(guī)劃和決策能力;云計(jì)算作為資源和容器為 Agent 提供行動(dòng)力;通過工具與真實(shí)世界交互,Agent 獲取反饋,并自我進(jìn)化。在 “自主行動(dòng)”的 Agentic AI 時(shí)代,阿里云不僅讓這條鏈路上每一個(gè)環(huán)節(jié)的能力足夠強(qiáng),還正在不斷進(jìn)行系統(tǒng)化創(chuàng)新和提升,走向下一階段——ASI

本文摘自《云棲戰(zhàn)略參考》總第20期

掃碼查看最新雜志

↓↓

轉(zhuǎn)載請注明出處、作者和本文鏈接。
聲明:文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

掃描下載App