楊植麟表示, Kimi 的進(jìn)化邏輯可以歸納為三個(gè)維度的共振:Token 效率、長上下文以及智能體集群(Agent Swarms)。在他看來,當(dāng)前的 Scaling 已經(jīng)不再是單純的資源堆砌,而是要在計(jì)算效率、長程記憶和自動(dòng)化協(xié)作上同時(shí)尋找規(guī)模效應(yīng)。如果能將這三個(gè)維度的技術(shù)增益相乘,模型將表現(xiàn)出遠(yuǎn)超現(xiàn)狀的智能水平。
技術(shù)重構(gòu)是本次演講的核心。楊植麟提出,行業(yè)目前普遍使用的很多技術(shù)標(biāo)準(zhǔn),本質(zhì)上是八九年前的產(chǎn)物,正逐漸成為 Scaling 的瓶頸。
自 2014 年以來,Adam 優(yōu)化器一直被視為行業(yè)標(biāo)配,但在超大規(guī)模訓(xùn)練中,尋找更具 Token 效率的替代方案已成趨勢。Kimi 團(tuán)隊(duì)在實(shí)驗(yàn)中驗(yàn)證了 Muon 優(yōu)化器在提升 Token 效率方面的顯著潛力,但在將其擴(kuò)展至萬億參數(shù)規(guī)模的 K2 模型訓(xùn)練時(shí),發(fā)現(xiàn)了 Logits 爆炸導(dǎo)致模型發(fā)散的穩(wěn)定性難題。
為此,團(tuán)隊(duì)研發(fā)并開源了 MuonClip 優(yōu)化器,通過 Newton-Schulz 迭代并結(jié)合 QK-Clip 機(jī)制,在徹底解決 Logits 爆炸問題的同時(shí),實(shí)現(xiàn)了 2 倍于傳統(tǒng) AdamW 的計(jì)算效率。
針對(duì) 2017 年誕生的全注意力機(jī)制(Full Attention),楊植麟展示了基于 KDA 架構(gòu)的 Kimi Linear。這是一種混合線性注意力架構(gòu),它挑戰(zhàn)了“所有層必須使用全注意力”的慣例,通過優(yōu)化遞歸存儲(chǔ)管理,在 128K 甚至 1M 的超長上下文中,將解碼速度提升了 5 到 6 倍,且在不同長度的場景下均保持了優(yōu)異性能。

此外,針對(duì)已有十年歷史的殘差連接,Kimi 引入了 Attention Residuals 方案,將傳統(tǒng)的固定加法累加替換為對(duì)前序?qū)虞敵龅?Softmax 注意力,解決了隱藏狀態(tài)隨深度增加而無限制增長、從而稀釋深層貢獻(xiàn)的頑疾,使每一層都能根據(jù)輸入內(nèi)容有選擇地聚合信息。
過去十年,大多數(shù)大規(guī)模深度學(xué)習(xí)模型使用的“殘差連接”結(jié)構(gòu)基本未做過重大改變。傳統(tǒng)的殘差結(jié)構(gòu)是通過對(duì)每一層的輸出進(jìn)行統(tǒng)一求和來實(shí)現(xiàn)信息傳遞,雖然這種方式在一定程度上有效,但也存在信息丟失和計(jì)算效率低下的問題。
Kimi團(tuán)隊(duì)的最新技術(shù)報(bào)告提出一種全新方案,允許模型在每一層選擇性地關(guān)注此前各層的輸出,而不是簡單地進(jìn)行求和。這一創(chuàng)新不僅優(yōu)化了計(jì)算效率,還顯著提升了大模型的訓(xùn)練效果。報(bào)告顯示,經(jīng)過改進(jìn)的48B模型訓(xùn)練效率提升了1.25倍。
根據(jù)報(bào)告內(nèi)容,Kimi的三位聯(lián)合創(chuàng)始人楊植麟、吳育昕、周昕宇與數(shù)十名研究員共同完成了這項(xiàng)技術(shù)突破。報(bào)告不僅在國內(nèi)引起了廣泛關(guān)注,也迅速成為全球AI領(lǐng)域的焦點(diǎn)。
報(bào)告發(fā)布后,馬斯克通過社交媒體表示:“Impressive work from Kimi”(令人印象深刻的工作),OpenAI前研究副總裁、o1系列推理模型主要發(fā)明者Jerry Tworek也表示,Kimi的這一技術(shù)突破標(biāo)志著“深度學(xué)習(xí)2.0”的到來,他認(rèn)為這種創(chuàng)新將在未來的AI發(fā)展中起到至關(guān)重要的作用。
前OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy也對(duì)這一研究給予了高度評(píng)價(jià),他提到:“看來我們還沒把‘Attention is All You Need’這句話按字面意思理解透。” Karpathy認(rèn)為,Kimi團(tuán)隊(duì)的創(chuàng)新不僅挑戰(zhàn)了現(xiàn)有的深度學(xué)習(xí)架構(gòu),還推動(dòng)了注意力機(jī)制在大規(guī)模模型中的進(jìn)一步應(yīng)用。
這項(xiàng)創(chuàng)新的殘差連接重新設(shè)計(jì),可能會(huì)成為未來大規(guī)模AI模型架構(gòu)的標(biāo)配。Kimi團(tuán)隊(duì)的研究成果顯示,通過引入動(dòng)態(tài)的、依賴輸入的注意力機(jī)制,模型能夠更智能地選擇性關(guān)注關(guān)鍵信息,從而提升訓(xùn)練效率,減少計(jì)算資源的消耗。
業(yè)內(nèi)專家普遍認(rèn)為,這一技術(shù)突破可能推動(dòng)更多AI公司探索新的架構(gòu)設(shè)計(jì),進(jìn)而提升AI模型的普適性和靈活性,幫助大模型應(yīng)用場景進(jìn)一步拓展。
在跨模態(tài)研究方面,楊植麟分享了一個(gè)重要的觀察:原生的視覺-文本聯(lián)合預(yù)訓(xùn)練中,視覺強(qiáng)化學(xué)習(xí)(Vision RL)能夠顯著反哺文本性能。消融實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過視覺 RL 訓(xùn)練后,模型在 MMLU-Pro 和 GPQA-Diamond 等純文本基準(zhǔn)測試上的表現(xiàn)提升了約 2.1%。這意味著空間推理與視覺邏輯的增強(qiáng),可以有效轉(zhuǎn)化為更深層的通用認(rèn)知能力。
演講的最后,楊植麟深入探討了智能體集群的擴(kuò)展。他認(rèn)為未來的智能形態(tài)將從單智能體向動(dòng)態(tài)生成的集群進(jìn)化。Kimi K2.5 引入的 Orchestrator 機(jī)制,能夠?qū)?fù)雜的長任務(wù)拆解給數(shù)十個(gè)子 Agent 并行處理。為了防止協(xié)作過程中出現(xiàn)單點(diǎn)依賴導(dǎo)致的“串行塌縮”,團(tuán)隊(duì)設(shè)計(jì)了全新的并行 RL 獎(jiǎng)勵(lì)函數(shù),激勵(lì)模型真正學(xué)會(huì)任務(wù)分解與并行執(zhí)行。
![]()
楊植麟在總結(jié)中談到了 AI 研究范式的轉(zhuǎn)變。他提到,十年前的研究往往更看重新想法的發(fā)表,但受限于算力資源,很難通過不同規(guī)模的實(shí)驗(yàn)來驗(yàn)證這些想法。而現(xiàn)在由于擁有了足夠的資源和“縮放階梯(Scaling Ladder)”,研究者可以進(jìn)行嚴(yán)謹(jǐn)?shù)囊?guī)?;瘜?shí)驗(yàn),從而得出更自信、更可靠的結(jié)論。
這也是為什么 Kimi 能夠從那些看似“古老”的技術(shù)中挖掘出新突破的原因。Kimi 將繼續(xù)堅(jiān)持開源路徑,將 MuonClip、Kimi Linear 和 Attention Residuals 等底層創(chuàng)新貢獻(xiàn)給開源社區(qū),打造更強(qiáng)大的模型,推動(dòng)人工智能技術(shù)的普惠。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論