本文摘自《云棲戰(zhàn)略參考》,這本刊物由阿里云與鈦媒體聯(lián)合策劃。目的是為了把各個行業(yè)先行者的技術探索、業(yè)務實踐呈現(xiàn)出來,與思考同樣問題的“數(shù)智先行者”共同探討、碰撞,希望這些內容能讓你有所啟發(fā)。
文/阿里云研究院
站在2026年的節(jié)點回望,2025年無疑是人工智能發(fā)展史上的關鍵轉折之年,在算力狂歡和參數(shù)規(guī)模的軍備競賽之后,人工智能技術開始全面扎根,經歷了一場從單點突破向系統(tǒng)重構的深刻質變。
這一年,多模態(tài)技術走向成熟,超長上下文成為標配,智能體(Agent)開始嘗試解決復雜的現(xiàn)實任務。但與此同時,效率瓶頸、路徑分歧、成本壓力與場景落地等深層次挑戰(zhàn)也接踵而至。面對這些挑戰(zhàn),單純依賴模型參數(shù)的堆疊已面臨邊際效益遞減。我們清晰地看到,破解難題的鑰匙,在于“系統(tǒng)工程”——即從底層基礎設施到上層應用范式的全鏈路協(xié)同創(chuàng)新。不僅要追求更聰明的模型,更要構建更高效的算力、更嚴謹?shù)倪壿嫛⒏踩姆谰€以及更自主的執(zhí)行力。
正是在這種系統(tǒng)工程思維的指引下,阿里云對AI技術棧進行了全方位的重構與升級。在模型架構的底層革新、基礎設施與訓推體系的工業(yè)化升級、內生安全與指令遵循的可信構建、多模態(tài)感官的全面打通,以及智能體自主認知的范式躍遷等五大維度取得了系統(tǒng)性突破。本文將深度復盤這些關鍵技術進展,勾勒中國科技企業(yè)如何以系統(tǒng)工程思維,推動AI從技術驗證邁向規(guī)模化產業(yè)應用的深水區(qū)。
模型架構是AI的大腦結構,它定義了信息處理的效率上限。隨著大模型進入長序列、多任務并行的深水區(qū),傳統(tǒng)架構在處理海量信息時面臨著計算復雜度呈平方級增長、有效信息被淹沒等本質難題。阿里云在2025年的一系列架構創(chuàng)新,旨在從根源上釋放模型的認知潛力。
注意力機制是Transformer的核心,但在處理長序列時,傳統(tǒng)模型普遍存在“注意力沉沒”現(xiàn)象——即模型傾向于過度關注序列開頭的幾個詞,導致后續(xù)關鍵信息被忽略。這不僅浪費了寶貴的算力,更限制了模型對長文檔的理解深度。
阿里云在NeurIPS 2025發(fā)表的研究中提出了門控注意力機制。它如同給模型的“眼睛”裝上了一個智能且動態(tài)的“瞳孔”,能在計算注意力時實時過濾噪聲。數(shù)據(jù)顯示,該機制將平均每層對初始Token的無效關注比例從46.7%壓縮至4.8%。這不僅大幅提升了計算的有效性,更讓模型在長文檔分析、代碼庫級編程等場景下的性能提升超過27%。
與此同時,為了解決超長序列帶來的計算負擔,阿里云在Qwen3-Next等模型中引入了線性注意力機制。通過數(shù)學分解將計算復雜度從二次方降低到線性,使得模型在處理數(shù)萬乃至數(shù)十萬Token時,內存占用和時延顯著下降,使處理整本書級別的長文本變得既快又省。
混合專家模型(MoE)是提升模型容量的關鍵路徑,但如何讓成百上千個專家高效分工一直是行業(yè)難題。傳統(tǒng)的負載平衡策略往往為了追求計算均勻,導致專家泛而不精。
阿里云創(chuàng)新性地提出了全局批次負載平衡策略。不再苛求每一個微小批次的數(shù)據(jù)都平均分配,而是著眼于全局數(shù)據(jù)的均衡。這種策略賦予了路由器更大的自由度,使得模型內部自發(fā)涌現(xiàn)出了清晰的專業(yè)化分工。結果顯示,這種內生性的專業(yè)化,讓模型在同等規(guī)模下獲得了顯著更強的知識深度與任務處理能力。
如果說架構是設計圖,那么基礎設施、后訓練與推理服務則構成了AI的流水線。只有這三個環(huán)節(jié)實現(xiàn)工業(yè)化級別的協(xié)同,AI才能打破“高成本、低效率”的詛咒,真正實現(xiàn)普惠。
在大模型研發(fā)與服務的全生命周期中,基礎設施的效率直接決定了創(chuàng)新的成本。
在研發(fā)側,試錯成本是最大的攔路虎。阿里云研發(fā)的SimAI高精度訓練模擬器,通過無縫接入主流框架,能以98.1%的對齊度在單機環(huán)境下模擬分布式訓練的真實負載。這意味著,在動用昂貴的GPU集群前,架構師就能精準預測性能瓶頸,將硬件選型從經驗驅動升級為數(shù)據(jù)驅動。而DataMan數(shù)據(jù)管理器,則實現(xiàn)了從數(shù)據(jù)源頭到訓練終點的智能化治理,僅用60%的高質量篩選數(shù)據(jù)即可達到全量訓練效果。
在服務側,資源調度的顆粒度決定了成本的下限。阿里云推出的Aegaeon多模型服務系統(tǒng),是一次對云上資源利用率的極致挖掘。傳統(tǒng)系統(tǒng)按請求調度,容易阻塞;Aegaeon則實現(xiàn)了“Token粒度”的自動擴縮容,允許GPU在生成一個Token的微小間隙即刻切換服務對象。結合高效的組件復用與內存管理,該系統(tǒng)將GPU資源池的利用率從不足34%提升至48%,在內部部署中顯著減少了GPU需求,使得同時部署千百個模型成為經濟可行的現(xiàn)實。
預訓練讓模型獲得了知識,但后訓練才是決定其邏輯嚴密性的關鍵。阿里云在2025年推動了一場從結果導向到過程監(jiān)督的范式革命。
針對復雜數(shù)學與邏輯任務,阿里云引入了過程級價值評估(PRM)。不同于只看最終答案,該機制能對推理鏈條的每一步進行審核。在Qwen數(shù)學模型的訓練中,這種技術使其能精準定位微小的邏輯偏差,從而在極具挑戰(zhàn)的AIME 2024大賽中成功解出21道難題,證明了AI從依靠概率猜測進化為具備嚴密推導能力的“理科生”。此外,針對MoE模型在強化學習中易發(fā)散的難題,GSPO(組序列策略優(yōu)化)與CHORD動態(tài)協(xié)同機制提供了理論完備的解決方案。這些創(chuàng)新平衡了模仿專家與自我探索的關系,確保模型在不斷進化的同時,不會遺忘已有的知識,實現(xiàn)了工業(yè)級可靠性的能力躍遷。
在模型落地環(huán)節(jié),除了成本,性能與準確率的平衡同樣關鍵。阿里云通過一系列算法創(chuàng)新,不僅讓模型跑得快,更讓模型在推理階段能多想一步。
針對高精度需求,阿里云引入了測試時擴展(Test-Time Scaling)技術。這就好比讓考生在考試時多花時間檢查。而通過自截斷N選優(yōu)(ST-BoN)算法,模型在生成早期就能通過內部狀態(tài)預判路徑優(yōu)劣,快速鎖定最優(yōu)解并截斷其他路徑。這種“早預判、早放棄”的策略,在相同計算成本下可將準確率提升3-4個百分點,且無需依賴額外的獎勵模型。此外,TeaCache技術通過緩存視頻生成中的冗余計算,實現(xiàn)了4.41倍的提速;而AsymKV非對稱量化技術,則精準區(qū)分Key與Value的敏感度,大幅降低了長文本推理的顯存占用。這些技術組合拳,構建了一個高性能、低成本的推理服務體系。
隨著AI深入金融、醫(yī)療等關鍵領域,安全與聽話變得比聰明更重要。阿里云不再滿足于外掛式的過濾,而是深入模型機理,構建內生的免疫系統(tǒng)與精準的執(zhí)行能力。
安全不能是黑盒。阿里云研究團隊在深入探究模型內部機理時發(fā)現(xiàn),模型中存在特定的“安全注意力頭(Safety Attention Heads)”。這些特殊的結構單元就像電路中的保險絲,在處理潛在風險內容時起著決定性的阻斷作用。實驗數(shù)據(jù)表明,僅移除模型中極小比例的關鍵安全頭,就會導致模型的防御成功率大幅下降?;谶@一發(fā)現(xiàn),阿里云實現(xiàn)了神經元級的安全調控。在應用層,Qwen3Guard安全護欄系統(tǒng)引入了創(chuàng)新的三分類機制(安全、不安全、有爭議),打破了非黑即白的僵化審核,讓業(yè)務方能根據(jù)場景靈活定義邊界。同時,STAIR框架賦予了模型三思而后行的內省能力,在回復高危問題前先進行思維鏈推理,分析用戶意圖與合規(guī)邊界,顯著提升了面對隱晦攻擊時的防御力。
為了讓模型更精準地執(zhí)行復雜指令,阿里云推出了AutoIF自我博弈機制。針對代碼生成與復雜任務規(guī)劃中“靜態(tài)數(shù)據(jù)不足以覆蓋動態(tài)錯誤”的痛點,該機制引入了由模型主導的“生成-執(zhí)行-驗證”閉環(huán)。模型化身出題人與判卷人,通過生成代碼并執(zhí)行單元測試獲取反饋,在沒有人工標注的情況下自主進化。這種機制讓Qwen模型在代碼生成與復雜任務規(guī)劃上的表現(xiàn)大幅提升。針對“寫一首詩,不包含字母E,且每行字數(shù)相同”這類包含多重限制的苛刻指令,IOPO(輸入-輸出聯(lián)合偏好優(yōu)化)技術將優(yōu)化的視野擴展到了輸入-輸出的聯(lián)合空間。它迫使模型細致研讀輸入中的每一個約束條件,解決了長指令中的遺忘與顧此失彼問題。而SymDPO則通過符號化演示,解決了多模態(tài)少樣本學習中的邏輯斷層,讓模型真正看懂演示中的規(guī)律。
2025年,AI正在打通感知的任督二脈。阿里云在多模態(tài)領域的突破,不僅在于讓AI看得見、聽得清,更在于賦予其專業(yè)級的創(chuàng)造力,實現(xiàn)了從感知世界到創(chuàng)造世界的完整閉環(huán)。
在交互體驗上,Qwen3-Omni模型搭載了“Thinker-Talker”架構,通過MoE分工確保理解深度,并利用Talker模塊實現(xiàn)了毫秒級的實時語音交互。這種全雙工能力讓AI能像人類一樣插話、打斷、共情,徹底改變了人機對話的節(jié)奏。
在深度感知上,針對多圖推理和小時級長視頻分析的痛點,mPLUG-Owl3引入了Hyper Attention(超注意力)模塊。它在模型內部增加“圖文交叉注意力”,與文字注意力并行工作,既不占用文字上下文空間,又能精準匹配問題需要的圖像信息。這使得模型能輕松看懂2小時的電影,并精準回答關于細節(jié)的提問。而LLMDet則打破了目標檢測的類別限制,利用大模型能力實現(xiàn)了對開放世界物體的精準識別,為具身智能提供了敏銳的眼睛。
生成不僅僅是娛樂,更是生產力。Wan視頻大模型的升級發(fā)布,是視頻生成工業(yè)化的里程碑。它創(chuàng)新性地采用了“4×8×8倍時空壓縮”技術,統(tǒng)一了文生視頻、圖生視頻與視頻編輯任務,且1.3B輕量版讓消費級顯卡也能進行專業(yè)創(chuàng)作。針對視頻中角色互動的難題,MIMO空間解耦技術將視頻解構為角色、場景、遮擋物等獨立層進行編碼,終于解決了角色動作僵硬、互動失真的頑疾。在圖像與3D領域,Qwen-Image攻克了中文復雜排版(如豎排、雙語混排)的難題,ACE++框架則實現(xiàn)了基于自然語言的全能修圖。AniGS與HybridGS技術的出現(xiàn),讓從單張照片生成可實時驅動的3D數(shù)字人、從充滿動態(tài)干擾的視頻中重建純凈3D場景成為現(xiàn)實。這些技術正在將內容產業(yè)從手工作坊推向智能制造,大幅降低了元宇宙與數(shù)字孿生的構建門檻。
如果說前述技術是AI的器官,那么RAG(檢索增強生成)與智能體(Agent)則是其手腳。2025年,AI正在從被動問答走向主動探索,展現(xiàn)出更強的自主規(guī)劃與社會適應力。
傳統(tǒng)的搜索智能體訓練依賴昂貴的商業(yè)API。阿里云提出的ZeroSearch打破了這一僵局,構建了一個虛擬檢索環(huán)境,讓模型通過自我博弈學會如何搜索、搜什么,將Search Agent的訓練成本降低了數(shù)個數(shù)量級。
不僅如此,阿里云還致力于解決模型懂知識但不會用的問題。KG-SFT(知識圖譜微調)技術將外部知識的嚴謹結構內化為模型的思維直覺,顯著增強了模型在處理復雜知識時的邏輯操縱能力。同時,StructRAG與AirRAG賦予了模型在推理過程中動態(tài)重組信息結構、
利用蒙特卡洛樹搜索(MCTS)進行戰(zhàn)略規(guī)劃的能力,讓AI在面對海量碎片信息時不再迷失,而是能進行“三思而后行”的深度決策。
為了解決長周期調研任務,WebResearcher提出了一種迭代式研究范式。它將深度調研重構為馬爾可夫決策過程,讓Agent能像人類研究員一樣,周期性整理中間報告,清理冗余上下文。這種機制賦予了Agent理論上無邊界的信息吞吐能力,能連續(xù)進行數(shù)十輪深度搜索,產出邏輯連貫的萬字深度研報。
在移動端,Mobile-Agent-v3引入了“反思者(Reflector)”模塊,實時監(jiān)控屏幕狀態(tài),具備了操作失敗后的自我糾錯能力。更有前瞻性的是GenSim社會模擬平臺,它通過標準化的“檔案-記憶-行動”架構,支持十萬級智能體并發(fā)運行。我們在平臺上成功復現(xiàn)了信息繭房、群體情緒傳播等社會現(xiàn)象。這不僅證明了智能體群體的演化規(guī)律,更為政策推演、輿情分析及社會治理提供了一個可控、可復現(xiàn)的數(shù)字平行世界。
2025年,是AI技術去偽存真、深蹲起跳的一年?;仡欉^去這一年的技術演進,我們看到的不僅是單點算法的突破,更是一幅波瀾壯闊的系統(tǒng)工程畫卷。從底層的注意力機制到上層的社會模擬,從極致的推理優(yōu)化到內生的安全機理,阿里云正在用全棧技術的系統(tǒng)性整合,回答一個終極命題:如何將簡單、經濟、可靠的智能能力,真正賦予千行百業(yè)。
這其中,開源與普惠始終是貫穿其中的主線。截至目前,千問(Qwen)系列大模型全球累計下載量已突破10億次,衍生模型數(shù)量超過20萬個。這組龐大的數(shù)字背后,是一個由全球開發(fā)者共同參與、蓬勃生長的創(chuàng)新生態(tài)。這證明了真正偉大的技術突破,不僅閃耀于論文,更生長于開放創(chuàng)新、共塑產業(yè)升級的廣闊實踐之中。
本文核心觀點與技術細節(jié)均提煉自最新發(fā)布的《阿里云年度AI技術進展》報告(點擊獲取)。
本文摘自《云棲戰(zhàn)略參考》總第21期
掃碼查看最新雜志
↓↓
![]()
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論