“對于ToC來說,大部分人不需要用到這么強的智能。今天用ChatGPT和去年相比,寫交換代數(shù)和伽羅瓦理論的能力變強了,但是大部分人基本感受不到。”在談及對模型路線分化的看法時,姚順雨表示,大模型在ToC和ToB,以及模型和應用分層兩個維度上,都發(fā)生了明顯的分化。

“AI Coding夸張一點來講,已經(jīng)在重塑整個計算機行業(yè)做事的方式,人不再是寫代碼,而是用自然語言和電腦去交流。”在姚順雨看來,ToB行業(yè)正呈現(xiàn)一個模型分化趨勢,即大部分用戶其實更傾向于用最強的模型。“最好的模型是200美元/月,第二強或者差一些的模型是50美元/月、20美元/月。我們發(fā)現(xiàn)像很多美國人愿意溢價用最好的模型。”

在姚順雨看來,AI在ToC應用上的垂直整合已經(jīng)看到效果,無論是ChatGPT還是豆包,模型和產(chǎn)品是強耦合、緊密迭代的,“但對于ToB而言,這個趨勢似乎是相反的,模型在變得越來越強、越來越好,但同樣會有很多應用層的東西,應用好的模型在不同的生產(chǎn)力環(huán)節(jié)。”

“這一仗從DeepSeek出來之后,已經(jīng)結(jié)束了。”說起模型分化,唐杰坦言,DeepSeek在2025年初的橫空出世,已經(jīng)終結(jié)了大模型排隊做對話和搜索的時代,讓他開始思考下一階段一定要“讓AI做一件事情”。他表示,在和團隊爭論很久后,才決定把重心放在Coding上。

而在談到當下RL(強化學習)正成為行業(yè)主流訓練方式時,尤其是RLVR(編者注:可驗證獎勵強化學習,一種在既定標準下的機器自主學習),姚順雨給出了他的觀察。

“現(xiàn)在自主學習是一個非常熱門的詞,在硅谷的大街小巷,甚至路邊的咖啡館里,大家都在談論。”談及模型自主學習的技術(shù)路線,姚順雨表示,自主學習會面臨“在什么場景下,基于什么獎勵函數(shù)做”的問題,比如掌握某一業(yè)務場景的代碼能力,和學習某一種自然科學,是完全不同的自主學習方法論。

“這個事情其實已經(jīng)發(fā)生了。”姚順雨提到,OpenAI就在利用用戶數(shù)據(jù)不斷彌合人聊天的風格,Claude已經(jīng)為自身這個項目完成了95%的代碼,這都可以算是一種自主學習。

在姚順雨看來,自主學習在過去一年中已出現(xiàn)清晰信號。他提到,Cursor團隊已在真實環(huán)境中,實現(xiàn)按小時級別用最新用戶數(shù)據(jù)持續(xù)學習與迭代,盡管受限于預訓練能力,整體效果仍不及OpenAI,但路徑的可行性已被證明。

“我對今年會有非常大的范式革新有信心,在持續(xù)學習、模型記憶能力,甚至多模態(tài)領域,都有可能出現(xiàn)新的范式變革。”在唐杰的表述中,這份信心來源于在大模型研發(fā)領域,學術(shù)界正在跟上工業(yè)界的腳步。

“兩年前,一些高校老師手上都沒有卡(算力),如今很多高校都有了算力配置,也開始進行大模型架構(gòu)、持續(xù)學習的相關研究。”在唐杰看來,學術(shù)界已經(jīng)加速鋪開AI研究的土壤,有望孵化出新的創(chuàng)新種子。

“一個創(chuàng)新的出現(xiàn),一定是某個事情有大量的投入,并且它的Efficiency(這里指模型訓練的投入產(chǎn)出比)到了瓶頸。”唐杰進一步解釋這一觀點。他表示,如果AI行業(yè)繼續(xù)Scaling,盡管這樣做仍會有收益,但當成本到達某一個數(shù)量級,就需要訓練范式的創(chuàng)新。

“一方面既然要Scaling up,Scaling肯定會帶來智能上界的提升;但同時應該定義Intelligence Efficiency,即智能的效率,用更少的投入獲得智能的增量。”唐杰這樣總結(jié)他對未來模型訓練范式的觀察。

另一邊,作為Agent領域的知名研究學者,姚順雨也分享了他對Agent迭代的前瞻。

“目前看來,ToB或者說生產(chǎn)力Agent才剛剛開始。”姚順雨表示,即使今天開始,世界上所有的模型訓練全部停止,但是把這些模型部署到企業(yè)中,已經(jīng)能帶來10倍甚至100倍的收益。“大模型應對GDP產(chǎn)生5%-10%的影響,但是今天它對GDP的影響還不到1%。”

而在唐杰看來,判斷一個Agent的功能邏輯是否成立,首先要看它是否真正解決了對人有價值的問題。早期不少Agent看似復雜,但最終發(fā)現(xiàn)通過更好的Prompt或基礎能力即可完成,獨立Agent的存在價值隨之消失。

“基座的應用永遠是矛盾。”唐杰表示,如果實現(xiàn)成本過高,而調(diào)用現(xiàn)成API就能解決,Agent的合理性就會被削弱;但一旦需求價值足夠大,基座模型又可能把能力直接吸收進來。

對于Agent的演進,加拿大皇家學院院士、香港科技大學榮休教授楊強將其劃分為四個階段:從目標與規(guī)劃均由人定義,到逐步由模型參與,再到完全由大模型內(nèi)生完成。他指出,當前階段的Agent仍高度依賴人工設定,本質(zhì)是工具化系統(tǒng);真正的拐點在于模型開始觀察人類工作并利用真實數(shù)據(jù),進而自主生成目標與行動路徑。

對于Agent的未來,楊強給出了他的定義:“Agent應該是由大模型內(nèi)生的一個native系統(tǒng)。”

“很多時候不是說人類替代了人類工作,而是會使用這些工具的人,在替代那些不會使用工具的人。”姚順雨的另一個觀察,來自AI時代大眾對大模型認知的參差。

“今天中國能做到一個很有意義的事情,是更好的教育,教育大家怎么更好地使用大模型產(chǎn)品。”姚順雨如是說道。

02 Scaling仍在繼續(xù),但訓練范式在變

“今年是RLVR(可驗證獎勵強化學習)爆發(fā)年。”談及Scaling模式的進化,唐杰表示,在RLVR爆發(fā)之前,行業(yè)內(nèi)只能通過人類反饋數(shù)據(jù)來做,但人類反饋的數(shù)據(jù)中“噪音”也非常多,而且場景也非常單一。“但如果我們有一個可驗證的環(huán)境,就可以讓機器自己去探索、去發(fā)現(xiàn)反饋數(shù)據(jù),實現(xiàn)自我成長。”

唐杰所說的RLVR,是指在推理訓練中,只對模型最終是否完成目標給反饋,而不評判表達方式或推理風格。系統(tǒng)會依據(jù)預設規(guī)則自動判斷結(jié)果:如數(shù)學是否得到唯一正確解、代碼是否通過測試。模型在多次嘗試中,僅當結(jié)果被驗證成功時才獲得獎勵,失敗則不獎勵,從而調(diào)整其推理策略。

RLVR的反饋可自動生成、標準一致,因此同一套推理任務可以被反復、大規(guī)模(scaling)用于訓練。

“大家可能會問,是不是智能越來越強,我們直接把模型不停地訓就行了?”在報告環(huán)節(jié),唐杰拋出了這樣一個問題。他表示,2025年初,DeepSeek的橫空出世給了業(yè)內(nèi)很多“震撼”,標志著大模型已經(jīng)基本解決了Chat(對話)和搜索部分,“這個范式可能基本上快到頭了,剩下更多的反而是工程和技術(shù)上的問題。”

“今天(行業(yè)內(nèi))訓練的范式發(fā)生了很大變化。過往我們不管做什么事情,都會由人工將輸入和輸出標注出來。”在發(fā)言中,阿里Qwen大模型負責人林俊旸同樣提及了模型的訓練范式。他表示,早期訓模型時,只要有標注的數(shù)據(jù),有“輸入”和“輸出”就可以進行訓練,“現(xiàn)在則是要把更多的數(shù)據(jù),放到實驗中去訓練。”

林俊旸以xAI為例進一步解釋了這一觀點。xAI團隊此前在直播中透露,Grok 4在RL(強化學習)階段投入的算力,是市面上其他任何模型的10倍以上。

“如此大規(guī)模的RL的數(shù)據(jù),我雖然覺得他們有點浪費,但另一方面也意味著RL有很多的想象空間。”林俊旸說道。

“我們發(fā)現(xiàn)可能基于MUON二階優(yōu)化器,它的效果會非常好,體現(xiàn)在它有兩倍的Token Efficiency的提升。”在月之暗面CEO楊植麟的分享中,他反復提到Token Efficiency這個概念,“你的Token Efficiency越高,意味著你可以用盡可能少的Token得到一樣的效果。”

楊植麟提到的Muon,是一種用于大模型訓練的優(yōu)化器。在訓練過程中,模型會不斷計算預測結(jié)果與正確答案之間的誤差,優(yōu)化器的任務就是根據(jù)這個誤差,計算參數(shù)該如何更新。優(yōu)化器不決定模型上限,但會直接影響訓練所需的Token數(shù)量和算力成本。

“我認為基于先驗實現(xiàn)AGI,可能會更早發(fā)生。”總結(jié)個人觀察時,楊植麟表示,Agent訓練本質(zhì)是一個搜索問題:在大量可能的行動與推理路徑中,找到有效解。更強的基礎模型和預訓練,相當于提供更好的先驗(Prior,已有知識與約束),能提前排除大量無意義或錯誤的嘗試,從而減少搜索空間、提升Token Efficiency。

“什么是Agent最基礎的能力?是編程,(任何)計算機完成編程動作,就可以執(zhí)行。”唐杰這樣解構(gòu)Agent的技術(shù)邏輯。他在現(xiàn)場舉例說明,不管是Claude的Computer Use,還是幾周前剛剛發(fā)布的豆包手機助手,抑或是名聲大噪的Manus,“異步”執(zhí)行都是一個關鍵屬性。

“幫我搜集一下,今天關于清華大學在小紅書上所有的討論,然后將關于某某的全部整理出來,生成相關的文檔。”唐杰舉例說明,像這樣一個任務,往往要經(jīng)歷幾十步,甚至上百步流程。AI必須在后臺自動運行、持續(xù)判斷與執(zhí)行。換言之,大模型在Agent和Coding上的能力,將是一個映射在Device Use(設備端側(cè)使用)上的命題。

在總結(jié)環(huán)節(jié),唐杰進一步闡釋了他的理念,“在我看來計算機有三個能力:第一,計算機的表示和計算;第二,編程;第三,本質(zhì)上是搜索。”他認為,正是這三種能力的疊加,使計算機具備了走向“超級智能”的潛力。

回到訓練層面上,唐杰坦言,他認為Scaling仍將繼續(xù),但重點正在發(fā)生變化,“已知的是我們不斷加數(shù)據(jù)、不斷探索上限。還有Scaling未知,就是我們不知道的新的范式是什么。”

03 做大模型要敢于冒險,走出榜單的束縛

展望下一個AGI的范式和行業(yè)未來,唐杰毫不掩飾作為AI研究學者的審視態(tài)度:“我們做了一些開源的成功,可能有些人會覺得很興奮,覺得中國的大模型好像已經(jīng)超過美國了,但可能真正的答案是,我們的差距目前并未縮小。”

正視挑戰(zhàn)和差距的同時,唐杰也分享了他眼中的國產(chǎn)模型發(fā)展方向。在他看來,2025年只是多模態(tài)適應的適應期。未來關鍵在于,模型能否像人類一樣,把視覺、聲音、觸覺等信息統(tǒng)一整合,形成原生、多源協(xié)同的整體感知能力,這是多模態(tài)能力躍遷的核心難題。

唐杰進一步指出,大模型在記憶、持續(xù)學習與自我認知上仍明顯不足。當前模型缺乏分層記憶結(jié)構(gòu),如何把個人記憶擴展為可長期保存的人類集體知識,并在此基礎上探索反思與自我認知能力,將是下一階段最具挑戰(zhàn)、也最值得投入的方向。

“目前的模型已經(jīng)有一定的反思能力,但如何形成自我認知還是很難的問題。”唐杰表示,對于大模型是否能有自我認知,在基礎模型研究領域一直都存在爭議,“我覺得模型的自我認識是有可能的,這個領域值得我們探索。”

“在國內(nèi),大家對于刷榜或者數(shù)字看得更重一些。”在對話中,姚順雨對當下的AI研究文化也給出了個人視角的觀察。他以DeepSeek為例闡述這一觀點:“他們(DeepSeek)就沒有那么關注榜單的數(shù)字,反而會更注重:第一,什么是正確的事情;第二,什么是你自己能體驗出好或者不好的。”

他進一步舉例,Claude可能在編程或者軟件工程的榜單上并非排名最高,但卻獲得了業(yè)內(nèi)公認的好評。“這需要大家能夠走出榜單的束縛,在體驗上去感受是不是正確的過程。”

“我們到底能不能引領新的范式,這可能是今天中國AI產(chǎn)業(yè)唯一要解決的問題。”姚順雨坦言,“其他所有做的事情,無論是商業(yè)、產(chǎn)業(yè)設計還是做工程,我們某種程度上已經(jīng)比美國做得更好。”

“我還是挺樂觀的。”這位1998年出生的AI頂尖學者表示,任何一個新業(yè)態(tài)一旦被發(fā)現(xiàn),在中國就能夠很快復現(xiàn),甚至局部做得更好,“在制造業(yè)、新能源車領域,這樣的例子已經(jīng)不斷發(fā)生。”

在唐杰看來,中國AI產(chǎn)業(yè)的機會,在于聰明且敢冒險的年輕人,在于持續(xù)改善的營商環(huán)境;而在產(chǎn)業(yè)中的每個人身上,“就是我們能不能堅持,能不能在一條路上敢做、敢冒險。”

本文系作者 字母AI 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-01-17 22:31

刷新歷史!中國U23男足進入亞洲杯四強

2026-01-17 22:05

海關總署副署長趙增連會見阿聯(lián)酋駐華大使侯賽因·本·伊卜拉欣·哈馬迪

2026-01-17 22:04

“太行三兄弟”完成評估驗收,將帶動中國燃氣輪機行業(yè)發(fā)展

2026-01-17 22:03

上緯新材回應監(jiān)管問詢函:彭志輝從未在研發(fā)過程中承擔任何角色或發(fā)揮作用

2026-01-17 21:55

美光科技擬以18億美元收購力積電位于中國臺灣的一處晶圓設施,以擴充其存儲芯片產(chǎn)能

2026-01-17 21:30

馬年春晚完成首次彩排,機器人將再登春晚

2026-01-17 21:28

王勝利任一汽-大眾汽車有限公司商務副總經(jīng)理

2026-01-17 20:58

阿維塔通報“南寧15輛車連撞事故”:輔助駕駛功能未激活

2026-01-17 20:43

科技部部長陰和?。簩⑼苿泳┙蚣健K浙皖優(yōu)勢互補,凝聚合力,打造科技強國重要戰(zhàn)略支點

2026-01-17 20:42

馬斯克:用于Grok的“Colossus 2”超級計算機已投入運行

2026-01-17 20:09

1月17日新聞聯(lián)播速覽20條

2026-01-17 19:57

馬斯克:AI5芯片設計已接近完成

2026-01-17 19:55

伊朗網(wǎng)絡服務恢復約1小時后再次中斷

2026-01-17 19:23

內(nèi)蒙古包頭啟動建設國家級零碳園區(qū)

2026-01-17 18:56

《海洋生物多樣性協(xié)定》生效,全球海洋保護迎來歷史性時刻

2026-01-17 18:47

2025年廣州國際港中歐班列出口跨境電商貨值超6000萬元

2026-01-17 18:46

博鰲亞洲論壇2026年年會將于3月24日至27日舉行

2026-01-17 18:43

國家醫(yī)保局與79家醫(yī)院簽約,開展真實世界醫(yī)保綜合價值評價試點

2026-01-17 18:41

美商務部長威脅:關于建設存儲芯片(產(chǎn)能)要么在美國本土建設、要么支付100%關稅

2026-01-17 17:50

最高法:人民陪審員參與審理孕婦泰國墜崖案等重大案件

掃描下載App