“靠讀文章、看圖片,機器人永遠(yuǎn)不可能理解真實的物理世界。”

王曉剛表示,AI的研究范式,要從以機器為中心轉(zhuǎn)變成以人為中心,通過采集人類的真實行為數(shù)據(jù),學(xué)習(xí)真實的物理規(guī)律,去訓(xùn)練具身智能的世界模型。世界模型不是泛指“一個世界”,它指的是人類存在的周圍環(huán)境。

為此,大曉機器人推出了ACE具身研發(fā)范式。

具體來講,ACE范式就是以人類與物理世界的互動規(guī)律作為研究起點,以環(huán)境式數(shù)據(jù)采集為引擎,構(gòu)建了一套從“環(huán)境式數(shù)據(jù)采集—開悟世界模型3.0—具身交互”的技術(shù)體系。

其中,開悟世界模型3.0可以形成跨本體的統(tǒng)一世界理解框架,融合物理規(guī)律、人類行為和真機動作,使機器不僅能“理解”世界的物理規(guī)律和因果思維鏈,還能“生成”長時動靜態(tài)交互場景。

王曉剛認(rèn)為,隨著大模型的爆發(fā),語言、圖文等多模態(tài)數(shù)據(jù)的價值逐漸被榨干,邊際效應(yīng)變得越來越低。目前,所有人都需要回答一個問題:除了過去人類在文章、圖文、互聯(lián)網(wǎng)上積累的這些智能數(shù)據(jù)以外,我們還有哪些新的智能?

“具身智能出現(xiàn)以后,大家期望用世界模型,與物理世界產(chǎn)生交互,理解人與環(huán)境交互過程中的物理規(guī)律、各種目標(biāo)的動態(tài)行為準(zhǔn)則。在這一過程中,具身智能領(lǐng)域?qū)a(chǎn)生新的智能。”王曉剛表示。

以下是趙何娟與王曉剛的對話內(nèi)容,略經(jīng)編輯:

趙何娟:大家好,歡迎來到今天趙何娟Talk @ T-EDGE的現(xiàn)場。今天我們請到了一位技術(shù)專家,也是現(xiàn)在炙手可熱的AI大模型和世界模型的研究專家——商湯科技聯(lián)合創(chuàng)始人王曉剛博士。曉剛博士,你好!

王曉剛:謝謝何娟老師,非常榮幸來到趙何娟Talk。鈦媒體這些年來一直都在關(guān)注商湯的發(fā)展和成長。因為商湯算是AI 1.0時代"四小龍"的領(lǐng)軍企業(yè),后面發(fā)展到AI 2.0大模型時代,現(xiàn)在又開始進(jìn)入世界模型時代。這個時代的變遷,您都是見證者和實際的參與者。

趙何娟:我對您的經(jīng)歷非常感興趣。您是從科大少年班畢業(yè),然后就進(jìn)入了視覺智能學(xué)習(xí)這個方向,一直從事相關(guān)行業(yè)??梢哉f,您的參與和學(xué)習(xí)也是中國整個視覺計算行業(yè)發(fā)展的一個縮影。這也是為什么今天請您來到我們的直播間。

首先,我想跟您聊一聊關(guān)于您的學(xué)習(xí)經(jīng)歷。從科大少年班開始,您是怎么走上了AI和人工智能這條道路的?能不能先講講您的個人經(jīng)歷?

AI之路,從中科大少年班開始

王曉剛:我是1996年進(jìn)入中國科技大學(xué)少年班。但實際上我自己的年齡是正常的,那時候是18歲??拼笥袀€少年班,當(dāng)時選了一批年齡很小、有才華的孩子,另外也從科大整個范圍內(nèi)選了一批學(xué)習(xí)比較好的學(xué)生,把他們混編在一起。

趙何娟:所以是大帶?。?/strong>

王曉剛:對,我們都一起上課、住在一起。我的同學(xué)當(dāng)時最小的才12歲,后來去了哈佛,現(xiàn)在是哈佛的教授。

前兩年,老師都是交給我們非?;A(chǔ)的數(shù)學(xué)和物理。到大三的時候,就可以選專業(yè)了,我就選了電子工程和信息系統(tǒng),特別是圖像處理。那時候處理的還都是一些遙感圖像、地理信息系統(tǒng)。

其實整個信息還是比較閉塞的。在2000年之前,不太知道外面的世界是什么樣的,國際最好的AI研究水平是什么樣的。甚至,我們都不知道ICCV、CVPR這些頂級會議和期刊,都沒聽說過。

因為當(dāng)時整個中國,估計一年也就兩三篇CVPR這種水平的論文能中,基本都是從微軟亞洲研究院出來的。

我是2001年從中科大畢業(yè),就到了湯曉鷗老師的多媒體實驗室。那時候湯老師才告訴我們CVPR和ICCV是最好的頂級會議,我們要朝著這個目標(biāo)做計算機視覺,但當(dāng)時整個實驗室其實也沒有發(fā)過這樣的頂級論文。

湯老師給我們設(shè)定了一個非常高的目標(biāo),說我們的多媒體實驗室(MM Lab)將來一定能夠成長為世界頂級的實驗室,你們的目標(biāo)就是MIT、斯坦福、劍橋這樣的頂級學(xué)校。后來,在他的指引下,我們確實也做到了。

2004年我在多媒體實驗室、香港中文大學(xué)畢業(yè)的時候,我發(fā)了五篇CVPR和ICCV的論文。

趙何娟:那個時候發(fā)頂刊就已經(jīng)很厲害了。在這之前,整個中國一年一共才兩三篇,你畢業(yè)的時候有五篇,那是創(chuàng)紀(jì)錄的。

王曉剛:后來我申請MIT的時候,我的MIT導(dǎo)師叫Eric Grimson,他是EECS系的系主任,后來是MIT的Vice-Chancellor(校長)。他說這個學(xué)生可能是今年申請的最強的一個學(xué)生。

后來我就去了MIT。不光是我,包括我后面的師弟,也都到了MIT,還有的去了斯坦福、劍橋各個地方。

趙何娟:所以,從2004年到現(xiàn)在的20多年里,可以看到整個中國的科技人才,尤其是計算機相關(guān)的人才,井噴的數(shù)量和速度真的很驚人。我看了一個統(tǒng)計數(shù)據(jù),中國在這種頂級刊物上發(fā)表的人工智能相關(guān)論文數(shù)量已經(jīng)排到全球第一了。

王曉剛:但是我們也不要忘掉,這個變化是一代一代人的努力完成的。

從零到一的突破的時候,那個時候是不敢想象的。我還記得2014年我們做人臉識別,湯老師希望有一天AI人臉識能夠超越肉眼的識別率。

我從MIT回來以后又回到了香港中文大學(xué),就跟湯老師在一塊兒。當(dāng)時大家不知道AI能不能超越肉眼的識別率。所以后面我們把這個結(jié)果做出來以后,還在反復(fù)驗證。因為你有可能得到了一個結(jié)果,但這違反科學(xué)理論——AI永遠(yuǎn)超不過人類,你做出來的可能是錯誤結(jié)果。

我們一直在驗證,最后得出AI確實能夠超越肉眼識別率。當(dāng)時我們是跟Facebook去競爭,因為Facebook也有這樣一個項目,也要超過肉眼,它的計算資源和數(shù)據(jù)是遠(yuǎn)遠(yuǎn)超過我們的。但我們當(dāng)時最先到達(dá)了這條紅線。

所以,2014年商湯科技就誕生了。

AI的3.0時代,世界模型

趙何娟:在商湯科技誕生之前,我記得其實在美國,包括李飛飛教授發(fā)起的ImageNet行動,其實都在這條路上努力。但為什么說商湯當(dāng)是全球第一個實現(xiàn)AI識別率超過人眼?

王曉剛:那時候ImageNet是一個更廣泛的、更難的任務(wù),但它也沒有達(dá)到肉眼的水平。因為人臉識別當(dāng)時工業(yè)應(yīng)用背景非常廣泛,一旦成功的話,很多地方都能用起來。而且你看我們最后在人臉識別上達(dá)到了超過99%的識別率,肉眼大概是98%的識別率,所以這是第一個超越。

當(dāng)然,ImageNet也參加了比賽,拿了幾項第一名。2015年,ImageNet還做了圖像檢測、視頻識別,也是在這個賽道上。

趙何娟:所以其實這種你追我趕的過程,也推動了整個AI 1.0視覺識別時代的大發(fā)展。

王曉剛:對。我覺得這里面核心的點就是你要不斷突破自我的局限,或者當(dāng)時那個時代的局限。

你看最開始我們不能發(fā)CVPR的文章,覺得根本發(fā)不了。湯老師說你能發(fā)。當(dāng)時說AI不能夠超越肉眼,我們能夠超越肉眼的識別率。今天有這么多華人科學(xué)家發(fā)了這么多論文,今天我們應(yīng)該想的是怎么進(jìn)一步突破自己的局限。

趙何娟:你覺得我們自己的局限主要是什么?

王曉剛:今天從1.0、2.0到3.0的發(fā)展,這個研究范式還是有下一代的,我們要能夠提出這種新的研究范式。

趙何娟:其實這種研究范式,我們可以總結(jié)一下。

比如AI 1.0可能更多是在視覺識別,更多考慮的是識別率,從杰弗里·辛頓開始提到了87%,到商湯你們做到了99%超過肉眼。

然后到AI 2.0時代,不再談視覺識別率,而是談Scaling Law,大力出奇跡,數(shù)據(jù)、算法和算力變成了最核心的要素。

再到AI 3.0,或者可能是2.0的延伸,就是世界模型?,F(xiàn)在又到了一個新的瓶頸和十字路口,可能需要新的核心范式。如果說總結(jié)AI發(fā)展的整個范式發(fā)展,你覺得現(xiàn)在最核心必須要突破的局限是什么?到下一代范式,可能會在哪個方向發(fā)生?

王曉剛:這里面要核心回答的一個問題是:智能是從哪里來的?我們怎么能夠用模型或算法把它挖掘出來?

回想1.0時代,我們做人臉識別,智能從哪來?圖像本身沒有智能,是人加了標(biāo)簽。其實當(dāng)時不同領(lǐng)域,每個任務(wù)都靠人進(jìn)行標(biāo)注。這里注入的智能效率非常低,也比較少。所以那個時代基本上用一些小模型就夠了,很難做到通用化程度。

趙何娟:所以AI 1.0時代的核心局限在于標(biāo)注的局限性。

王曉剛:對,標(biāo)注+小模型。

到了2.0時代,我們發(fā)現(xiàn)用了大量語言或圖文結(jié)合的東西。這些都是人類歷史上幾千年積累的人類行為,比如寫文章、寫代碼,體現(xiàn)了人類智慧,而且跨越了非常多不同領(lǐng)域。這些智能已經(jīng)存在在那里了,我們用技術(shù)手段把它提取出來,這就是大模型。

Scaling Law成功的就是把這幾千年積累的智能挖掘出來了。其實大模型本身并不稀奇,因為2019年開始我們在視覺領(lǐng)域也在嘗試使用大模型。我們當(dāng)時做了一個320億參數(shù)的視覺大模型,比谷歌當(dāng)時200多億參數(shù)的還要大,確實在視覺識別效果也更好。

趙何娟:當(dāng)時你參數(shù)的來源是什么?

王曉剛:谷歌當(dāng)時有YouTube和搜索的數(shù)據(jù),我們因為在視覺行業(yè)領(lǐng)域積累了很多年,也有大量行業(yè)數(shù)據(jù)。但達(dá)不到通用性,因為數(shù)據(jù)本身還是圖像加標(biāo)注,里面存在的智能比較少。所以我們沒有發(fā)現(xiàn)ChatGPT這樣的時刻。

但當(dāng)大模型用到語言、圖文、多模態(tài)數(shù)據(jù)里面,一下子就爆發(fā)出來了。我覺得那個其實是一個比較重要的點。

但今天我們會發(fā)現(xiàn),這些又遇到Scaling Law瓶頸了。核心原因是現(xiàn)有數(shù)據(jù)的價值逐漸被榨干,邊際效應(yīng)越來越低,所以我們要回答:除了過去人類在文章、圖文、互聯(lián)網(wǎng)上積累的這些智能數(shù)據(jù)以外,我們還有哪些新的智能?

趙何娟:所以現(xiàn)在的核心局限是數(shù)據(jù)本身的來源已經(jīng)被耗干了。

王曉剛:之前還停留在互聯(lián)網(wǎng)上積累的數(shù)據(jù),所以現(xiàn)在我們想到了具身智能的世界模型,就要跟物理世界交互,理解人與環(huán)境交互過程中的物理規(guī)律、各種目標(biāo)的動態(tài)行為準(zhǔn)則,這里面產(chǎn)生新的智能。所以,我們說3.0時代實際上是對它的期待。

趙何娟:你核心的期望是指針對物理世界的數(shù)據(jù)搜集,除了數(shù)據(jù)之外,還有新的算法突破嗎?因為對于世界模型來說,首先數(shù)據(jù)收集就很難,大自然世界里面這樣的數(shù)據(jù)很少被收集到。然后這些收集到的數(shù)據(jù)本身的處理,是不是跟過去大語言模型的算法又可能必須不一樣?

王曉剛:必須有理論的突破。

其實我們也在思考這個問題。今天具身智能的研究范式是VLA,這是一個以機器為中心(machine-centric)的研究范式。就是給機器一個圖像,給一個指令,它直接想完成動作,中間不需要理解環(huán)境、世界、物理規(guī)律。而且人們當(dāng)時期望著,2.0時代有大模型、有通用人工智能,把一個大模型搬到機器上,機器也就具有了通用人工智能,這個時代是不是就到來了?

今天我們研究下來,它是不行的。

為什么呢?首先機器的物理結(jié)構(gòu)都不一樣,有人形的、有兩個機械臂、有一個機械臂、有夾爪、有靈巧手、有機器狗、有掃地機器人。大家可以想象,當(dāng)物理形態(tài)都不一樣的時候,怎么能期待它們有一個通用的同樣的大腦?就像人跟狗不可能擁有同樣的大腦結(jié)構(gòu),因為物理結(jié)構(gòu)不一樣。

但今天研究范式就存在這個問題。比如把每個不同類型的機器人按它的方式采集真機數(shù)據(jù),集合在一起訓(xùn)練一個模型作為機器人大腦。這種方式是不可能達(dá)到通用性的,而且過程中不需要理解周圍環(huán)境、物理規(guī)律、世界是什么。

以人為中心,新的具身智能研究范式

趙何娟:你覺得現(xiàn)在的轉(zhuǎn)變或者說你們新的想法,最大的瓶頸或困難是什么?

王曉剛:我覺得首先研究范式要做出轉(zhuǎn)變。

我們提出來,從以機器為中心變成以人為中心。你先不要去管機器,先去觀察人是怎么完成各種任務(wù)、各種活動的?,F(xiàn)在有各種穿戴式設(shè)備、AI眼鏡、第一視角攝像頭,在胸前、手上、周圍可以裝各種傳感器。去年巴黎奧運會乒乓球和籃球比賽,我們周圍安排傳感器,直接能分析運動員怎么打球、球速什么樣,看人是怎么學(xué)習(xí)和運動的。將來還要放人的力分析、觸覺、摩擦力等信息。

這個模型需要理解物理規(guī)律,人跟物理世界、環(huán)境相結(jié)合時產(chǎn)生的物理規(guī)律是什么。打開冰箱門想拿一瓶水、穿衣服,接觸的這些物理世界的規(guī)律是什么。在這個過程中,世界模型要經(jīng)過一系列算法改變,理解物理世界,合成物理世界里各種人和機器產(chǎn)生的活動,甚至能預(yù)測。

今天大家也意識到VLA這套東西走不出來,但可能還沒有意識到應(yīng)該從以機器為中心變成以人為中心。

所以今年8、9月份,特斯拉說以前靠真機操作,現(xiàn)在要變成通過視覺、戴第一視角眼鏡采集數(shù)據(jù)。好處是采集效率很高,真機操作效率很低,而且不能在真實生產(chǎn)、生活環(huán)境中做復(fù)雜活動。十幾分鐘甚至一小時的長程復(fù)雜活動,靠操作真機沒法完成。但有了以人為中心的記錄人活動,穿戴設(shè)備在家庭生活、辦公室裝傳感器,就能長期記錄人行為。

但即便這樣,大家對這件事的認(rèn)知還停留在視覺上,但人對物理世界的交互不止于視覺,還有力、觸覺、人體工學(xué)等研究。這就是為什么特斯拉和Figure AI會想到用視覺方案,因為視覺最簡單,能記錄人類行為,他們在自動駕駛里取得了成功。但自動駕駛跟機器人有很大不一樣,自動駕駛是避免物理接觸,機器人必須進(jìn)行物理接觸。

光用視覺做物理接觸,比如拿一瓶水放這兒,動作是先拿起來、移動、放下。但真正的人可能推一下,因為知道摩擦力,知道使多大勁能把它從位置A推到位置B。很多行為,人的行為跟機器人不一樣。如果我們未來能以人為中心,新的研究范式就能讓機器人大腦真正理解物理世界。這樣的大腦永遠(yuǎn)不可能只靠讀文章、看圖片理解物理世界,這是研究范式根本的改變。

趙何娟:挺有道理的。

從研究或者說智能的來源,過去是由機器搜集數(shù)據(jù)來的,不管是人工標(biāo)注也好,都是機器收集的數(shù)據(jù)。到現(xiàn)在可能更多要通過人自己收集數(shù)據(jù),以及怎么去觀察人。

但這里有個很大的問題:人的行為不是單一的。比如我的手去碰觸話筒、握東西、拿東西,它是跟大腦連接的,行為數(shù)據(jù)里面不僅有手觸碰的物理數(shù)據(jù)本身,還連通大腦神經(jīng)數(shù)據(jù)的變化。如果說我們做世界模型或機器人模型分析,我只有手這部分?jǐn)?shù)據(jù),怎么分析手這部分?jǐn)?shù)據(jù)的反饋機制?因為我不能分析大腦,但我們實際要做的是機器人的大腦本身。

王曉剛:所以就是要聯(lián)合在一起。

趙何娟:我們怎么聯(lián)合?我們怎么解決大腦的分析,就是神經(jīng)分析和行為數(shù)據(jù)之間的關(guān)系?

王曉剛:這就是大腦小腦的聯(lián)動。

大腦在執(zhí)行任務(wù)過程中需要有記憶,有長程的復(fù)雜記憶。比如說收拾桌子,有書籍,書原來放在書架上,書架在什么位置,我就要把書放回原來書架位置。大腦得記住書在書架的什么位置、怎么擺放。

機器每天接受大量不間斷信息,不可能都記下來,一定要進(jìn)行挑選。要記跟任務(wù)相關(guān)的,在物理世界執(zhí)行任務(wù)過程中會得到反饋,什么東西任務(wù)成功了,就知道當(dāng)時應(yīng)該記住什么。在不斷迭代反饋過程中,大腦要進(jìn)化,能夠有長期記憶。

這只是其中一個例子,還有很多復(fù)雜交互都需要。

趙何娟:那怎么解決?除了長期記憶這個當(dāng)然非常重要的點,怎么解決神經(jīng)分析和行為數(shù)據(jù)之間的關(guān)系?

王曉剛:這就是大腦小腦的聯(lián)動。

有些東西看到了就自然反應(yīng),比如讓我水平移動一下,條件反射就知道該怎么移動,這就是小腦的指令完成。還有更復(fù)雜的任務(wù),要分幾個階段,要去規(guī)劃,這些東西可能就要跟我們互聯(lián)網(wǎng)上的那些數(shù)據(jù)結(jié)合。

比如炒菜,先怎么做后怎么做,實際上是有規(guī)劃的,以前積累的互聯(lián)網(wǎng)文章、圖文數(shù)據(jù)是有價值的。所以我們要把數(shù)字世界和物理世界這兩個能夠打破邊界,最后形成強大的機器人。

趙何娟:人的大腦這種邊界怎么打破?現(xiàn)在可能最難的就是怎么研究把這個邊界打破。

王曉剛:我覺得里面肯定還有很長的路要走,大家努力方向也是希望打破邊界。

但要往這個方向努力完成這項工作,首先認(rèn)知和方向得是對的,要知道現(xiàn)在研究這件事的方向、范式已經(jīng)發(fā)生變化。如果還一直在操作原來那些真機數(shù)據(jù),你是永遠(yuǎn)不可能達(dá)到目標(biāo)的。

趙何娟:你這么說是不是意味著人形機器人發(fā)展沒什么前途?

王曉剛:我覺得還是有前途。因為我們的物理世界就是圍繞著人打造的,核心的研究是我們通過人來研究人跟物理世界的關(guān)系,把這些智能和知識轉(zhuǎn)移到人形機器人身上。

趙何娟:把它當(dāng)實驗品?就是人來收集這些數(shù)據(jù)是否可用?

王曉剛:一旦我們的世界模型、強大的大腦形成以后,它可以指導(dǎo)我們設(shè)計人形機器人,怎么設(shè)計最能有效實踐大腦意志、實現(xiàn)工作和行為。

現(xiàn)在情況可能相反,我們先設(shè)計了一個機器人,實際上沒有大腦,靠它采集各種數(shù)據(jù),背后可能是不工作的,這就是以前走的、現(xiàn)在還在走的方式。

將來可能需要以人為中心,這種方式會打開一扇門。因為過去有很多像工程力學(xué)、人體工程學(xué)研究了很多關(guān)于人的力、人體工學(xué),但這些成果從來沒跟機器人聯(lián)系在一起,原來也不是以人為中心的研究。兩邊沒有關(guān)系,但今天產(chǎn)生關(guān)聯(lián),我覺得很多這方面的研究成果可以大量進(jìn)入人工智能領(lǐng)域。

趙何娟:嗯嗯,有道理。但再往前發(fā)展,可能人的數(shù)據(jù)發(fā)展會不會先產(chǎn)生一個大規(guī)??纱┐魇袌雠畈l(fā)展?硬件加AI。

王曉剛:對。

這里面怎么設(shè)計?今天特斯拉說要做視覺方案,就會有一批公司做頭部穿戴設(shè)備、第一視角。但我們會知道這只是一部分,第一視角看到的東西只是視覺方面,跟物理世界的交互只是單一維度,還有很多其他傳感器可以加進(jìn)來。

所以隨著對這件事認(rèn)知不斷深入,這些設(shè)備也會不斷豐富。不光有穿戴的,還有周圍環(huán)境建立的傳感器,能夠觀察我們的行為。

趙何娟:你剛才多次提到傳感器。是不是意味著我們這么多年一直在以視覺為核心的智能發(fā)展,也走到了瓶頸?視覺不是唯一方式了,傳感器本身會不會有新的突破?

王曉剛:未來人工智能發(fā)展,像OpenAI提出來的是"環(huán)境計算"。

未來人工智能像空氣一樣存在周圍環(huán)境中。今天的人工智能要打開手機、電腦、APP才能激活,發(fā)出請求給ChatGPT,它才回答。但將來不是這樣,模型一直在分析,當(dāng)我需要什么時主動提供服務(wù)。所以核心第一個是計算芯片,加上各種豐富的AI傳感器,再加上模型,這三個要素構(gòu)成未來人工智能新體驗。

趙何娟:有意思。相當(dāng)于剛才說到了兩個可能新興發(fā)展的產(chǎn)業(yè),一個是可穿戴,過去就有,但在新AI浪潮里可能迎來大機會;第二個是智能傳感器。智能傳感器這塊中國發(fā)展規(guī)模和程度怎么樣?

王曉剛:過去AI傳感器發(fā)展速度遠(yuǎn)低于計算芯片。主要我覺得還是沒有把里面的價值充分發(fā)掘出來,沒有看到前景。

以前我們跟合作伙伴設(shè)計過三層AI傳感器:第一層光學(xué)感知層,信號進(jìn)來變成模擬信號;第二層數(shù)字計算,數(shù)字化處理;第三層把AI引擎、AI模型放到傳感器里。以前AI大模型放在云端,后來放手機上,現(xiàn)在放在小小傳感器里,鋪滿生活環(huán)境各個角落。如果人工智能發(fā)展是環(huán)境式計算,AI傳感器會占據(jù)重要位置,這是巨大機會。

就像之前做CPU、GPU是萬億級市場,傳統(tǒng)做傳感器的也很多。將來有了各種人工智能傳感器,會產(chǎn)生又一個巨大賽道。

趙何娟:人工智能傳感器變化的核心也是芯片驅(qū)動嗎?

王曉剛:對,這是要模型和芯片有非常緊密結(jié)合。

趙何娟:那這是不是意味著中國繼續(xù)往前發(fā)展的很大機會?

王曉剛:這是非常巨大的機會,AI和傳感器結(jié)合。我們有傳感器,而且跟其他國家相比,我們的AI發(fā)展還是非常快的。有很多場景驅(qū)動,蘊藏機會,而且跟機器人密切相關(guān)。

想象機器人進(jìn)入家庭,安全性非常重要。給老人遞水不能是燙的,給食物必須是新鮮的。如果出問題,像自動駕駛有主動安全、有責(zé)任方。機器人到家要確保小孩靠近時不產(chǎn)生碰撞,皮膚要能感受距離、產(chǎn)生避障。所有這些離不開智能化傳感器,應(yīng)用空間非常大。

趙何娟:接下來發(fā)展是不是意味著剛才講到的數(shù)據(jù)、范式改變,還有一個很核心就是算力、芯片?包括智能傳感器、新機器人大腦,都要有算力驅(qū)動、芯片驅(qū)動。

中國現(xiàn)在又在大量國產(chǎn)化,推動自主知識產(chǎn)權(quán)和自主可控的芯片產(chǎn)業(yè)發(fā)展。您覺得中國現(xiàn)在國產(chǎn)芯片發(fā)展階段,在驅(qū)動智能傳感器、新機器人大腦這些方向上,現(xiàn)在處于什么水平?夠嗎?

王曉剛:發(fā)展非???。但今天可能面臨或要解決的最大問題是生態(tài)問題,軟件生態(tài)。

英偉達(dá)應(yīng)該超過一半是軟件工程師,CUDA有生態(tài)。今天單純看算力指標(biāo)都非常好,幾百T的算力,追趕比較快。但要把算力轉(zhuǎn)換為實際計算結(jié)果和效率,就存在模型適配問題?,F(xiàn)在AI發(fā)展,新模型層出不窮,大家都想領(lǐng)先。有了模型后,如果花幾個月時間進(jìn)行新模型適配,開發(fā)者是等不及的。

以前市場上比較多的是英偉達(dá)GPU,已經(jīng)做了很好適配,開發(fā)出來的模型自然跟英偉達(dá)芯片適配好。但今天其他芯片要花時間適配,所以接下來開源生態(tài)會變得非常重要。開源后才有更多社區(qū)的人使用模型,模型跟哪個芯片適配得好,哪個芯片使用起來就更方便。將來開源也是推動國產(chǎn)AI發(fā)展自主可控非常重要的方面。

這個月我們已經(jīng)開源世界模型(開悟世界模型3.0),而且是持續(xù)更新迭代,提升社區(qū)影響力。這個模型會和各種國產(chǎn)芯片適配。

趙何娟:模型要跟芯片適配,相當(dāng)于軟件上的適配。這種適配過程是你們的團(tuán)隊完成還是芯片團(tuán)隊完成?共同機制是什么?

王曉剛:因為芯片底層有很多底層軟件,怎么樣調(diào)度算力。我們在模型層面怎么樣去優(yōu)化算子實現(xiàn),是我們來做。所以兩邊要共同努力,基本上要根據(jù)硬件不同重新設(shè)計算法,達(dá)到比較高效。

趙何娟:正好說到你們現(xiàn)在做的大曉機器人公司。大曉機器人做的具身智能跟其他公司,比如說在模型和芯片磨合、選擇范式上有什么區(qū)別?從大曉機器人本身現(xiàn)在在做的產(chǎn)品方向來說,它跟其他具身智能產(chǎn)品有什么不同?

王曉剛:我覺得有兩點。首先技術(shù)路線上有新的技術(shù)路線,第二點是對產(chǎn)品化和場景的理解。

第一點上,大家可能不知道,今年年初我們的團(tuán)隊(劉子緯教授)發(fā)布了叫EgoLife的數(shù)據(jù)集,記錄了人在生活當(dāng)中的常識行為300個小時。這個數(shù)據(jù)集,像Yann LeCun(楊立昆)他們就基于這個數(shù)據(jù)集建了具身世界模型。

這個工作實際上在今年年初數(shù)據(jù)集就發(fā)布了,那時候我們已經(jīng)提出環(huán)境式采集這個概念。所以我們走在行業(yè)前面,我們的環(huán)境式采集加上世界模型,再加上具身基模型,這三部分組合在一起構(gòu)成我們的研究范式,我們叫ACE,就是以人為中心的新的研究方式。

我們的世界模型有獨特特點,分三部分:第一部分是多模態(tài)融合理解,有各種攝像頭、3D軌跡、相機位姿、力、觸覺等,框架可擴(kuò)展;第二部分是生成模型,能生成各種行為。這個月發(fā)布的開悟平臺里,可以選擇各種機器人本體(智源、宇樹、銀河通用等),告訴它做什么事,就能自由合成機器人完成的視頻和參數(shù),這些可以用來訓(xùn)練機器人;第三部分是預(yù)測,預(yù)測機器人操作過程。這就是我們世界模型的三部分。

趙何娟:我可以總結(jié)說,開悟世界模型跟傳統(tǒng)主流VLA這種具身智能模型最大的不同是來自于以人為中心的不同。除了這個不同,還有其他不同嗎?

王曉剛:因為以人為中心就能理解物理規(guī)律。

比如像李飛飛他們做的World Labs,人生成4D世界可以在里面漫游,但沒辦法把目標(biāo)分開、產(chǎn)生互動,因為使用目的不同。但現(xiàn)在在我們的世界里,可以把桌子換成不同類型,打開冰箱門產(chǎn)生不同交互行為。

我對動靜態(tài)目標(biāo)、物理世界理解更深刻,可以精準(zhǔn)可控、隨便編輯世界元素。這樣就可以把原來一個房間采集的人體數(shù)據(jù),生成成千上萬不同類型戶型、環(huán)境里產(chǎn)生的數(shù)據(jù)。

大家通常用生成式網(wǎng)絡(luò),類似Sora生成視頻。核心是怎么生成,但不強調(diào)前面的世界理解、多模態(tài)融合,所以框架很難拓展。但我們前不久跟南洋理工大學(xué)合作的Puffin工作,把相機位置加進(jìn)去了。給我一張圖片就能倒推相機位姿,如果相機在機器人手腕上,機器人不停動時看到的視頻怎么變化,根據(jù)視頻變化反推機器人做什么動作。這樣物理世界的概念就能在里面形成。

趙何娟:再舉個例子?

王曉剛:比如人跳舞,捕捉人體關(guān)鍵點、手的動作,可以轉(zhuǎn)移到機器人上驅(qū)動機器人跳舞。今天能看到一些工作做這樣的事,但相對簡單,只是人自身行為,沒有跟環(huán)境互動。更難的是人拿東西、收拾衣服,這些行為要轉(zhuǎn)移到機器人身上,就需要更復(fù)雜地對物理目標(biāo)、環(huán)境對象進(jìn)行建模。

趙何娟:如果未來這些要發(fā)生變化,在這些變化里面,你覺得現(xiàn)在的人才或者培養(yǎng)這些人才能滿足未來需求嗎?

王曉剛:所以我們剛才說以人為中心,打開了一扇門。

原來研究力學(xué)、人體工程學(xué)的這些人跟機器人沒關(guān)系,現(xiàn)在可以納入體系。原來數(shù)據(jù)采集和機器人控制是分開的,今天要更綜合的人才,既要懂模型也要懂運控。采數(shù)據(jù)、布傳感器時就要考慮機器人控制時需要什么信號、部署什么傳感器、用什么數(shù)據(jù)格式,這些都是比較綜合一體的。

趙何娟:這些綜合能夠運控和研究模型、計算機相關(guān)的人才,也包括以前根本不在AI賽道上的研究力學(xué)、物理學(xué)的這些人才。這些人才中國有優(yōu)勢嗎?

王曉剛:有,因為我們有廣泛的人才基礎(chǔ),還有很多學(xué)科,制造業(yè)也非常發(fā)達(dá)。實際上有非常好的基礎(chǔ)。今天我們要做的是把未來研究方向、研究體系梳理清楚,讓大家融入里面,最后形成合力,形成綜合性人才體系。

趙何娟:我覺得最難的是怎么把過去已經(jīng)形成的學(xué)科體系,通過不同實驗室、不同培養(yǎng)方式、研究機制,讓跨學(xué)科人才聚集到一起,用同樣的工作機制協(xié)同,朝一個目標(biāo)發(fā)展。這是一個巨大的教育挑戰(zhàn)。

王曉剛:所以需要有頂層設(shè)計。

趙何娟:誰來做這個頂層設(shè)計?企業(yè)還是教育部?

王曉剛:首先我自己有教育背景,是大學(xué)教授,團(tuán)隊很多來自大學(xué),對人才培養(yǎng)有認(rèn)知。

今天在企業(yè)、工業(yè)第一線,極大提升了我們對行業(yè)發(fā)展、研究路線的認(rèn)知。它可以反哺教育體系。首先在公司里面,需要跟不同學(xué)科專業(yè)的教授或人才合作,讓他們納入公司研發(fā)體系。這是公司的頂層設(shè)計。設(shè)計好以后反哺學(xué)校,在開設(shè)交叉學(xué)科時應(yīng)該怎么設(shè)計課程。以前很多課程比較老,現(xiàn)在發(fā)展迭代非常快。

趙何娟:現(xiàn)在這種機制,通過企業(yè)綜合培養(yǎng)然后反哺高校研究院的機制,現(xiàn)在普遍嗎?

王曉剛:還挺普遍的。特別是在AI發(fā)展的這十年里,越來越多的學(xué)生上學(xué)期間就到企業(yè)實習(xí)。

商湯2014年成立時市場上沒有AI人才,尤其是深度學(xué)習(xí)人才。你知道2014年1月,谷歌收購了一家公司,沒有任何產(chǎn)品、技術(shù),只有12個深度學(xué)習(xí)專家,叫DeepMind,說明當(dāng)時市場上沒有。

所以商湯成立時從高校大量招募實習(xí)生,可能一個全職帶十幾個實習(xí)生,逐漸培養(yǎng)他們。2021年商湯上市前統(tǒng)計,從2014年到2021年,商湯這么一個不大的公司,自己的實習(xí)生大概超過3000人,歷史上培養(yǎng)了超過3000名AI人才。

有的實習(xí)生后來去香港中文大學(xué)讀博士,博士畢業(yè)又成了教授。我們大曉機器人核心團(tuán)隊里,相當(dāng)一部分教授是我的學(xué)生,有的在商湯實習(xí)過,因為他們又成長起來了。

你可能不知道,我們在香港中文大學(xué)是湯老師上世紀(jì)90年代成立的MM Lab。后面大家畢業(yè)以后開枝散葉,去了香港大學(xué)、清華大學(xué)、南洋理工各個地方。這些學(xué)生自發(fā)地成了老師,又在那些地方成立MM Lab。所以國內(nèi)好多地方都有MM Lab,傳承是一致的。

今天我們要成立大曉機器人時,新成長起來的這批MM Lab學(xué)生變成了老師,有新的知識體系。AI浪潮1.0、2.0、3.0不斷演進(jìn),每次產(chǎn)生質(zhì)的跨越都需要創(chuàng)業(yè),創(chuàng)業(yè)是最好的形式推向下一階段。思想和精神傳承,人可能變了,我們做的事情也變了,但愿景沒有變。

湯老師給商湯的愿景是"堅持原創(chuàng),讓AI引領(lǐng)人類的進(jìn)步",我們一直都走在創(chuàng)新路上。

AI 1.0在小模型時代,作為軟件賦能ToB,在中國比較難。但今天機器人方向,我們最終要輸出軟硬一體的整體產(chǎn)品,要做垂直化整合,這是擺在面前非常重要的機會。

趙何娟:我是不是也可以理解你們也還是會做機器人本體?軟硬一體就是你的本體是跟別人合作的,你是還是輸出軟件?

王曉剛:今天我們說硬件的本體,它關(guān)鍵的問題在于它不滿足場景的需求。

首先我們做這個產(chǎn)品,我們深入到各個場景里面去,我知道這個硬件是怎么樣的設(shè)計,關(guān)鍵的這些部件是怎么樣的。

我們會對他提要求,所以今天我們這么多的合作伙伴,和包括我們的有一些被投的企業(yè),我們在一起的時候,他們也愿意給我們供應(yīng)零部件、供應(yīng)本體。那么我們重要的是一起能夠把這個市場能夠去做大,但是我們輸出的不單純是軟件,我們軟硬件是在一起。

機器人這么多的場景,這么多的賽道,空間還是很大的,這是一個幾十萬億的的賽道,給我們有很大的發(fā)展的空間。它的數(shù)量可能是比手機還要多,但是單價可能是跟汽車是一個水平的。

趙何娟:我可以理解為你們現(xiàn)在做的機器人更多往商用和工業(yè)用方向?

王曉剛:第一步可能是ToB會多一些,這也是我們過去的一些優(yōu)勢,對場景的理解。當(dāng)客戶聽到我們要做機器人,他們非常高興、有期待,覺得我們應(yīng)該做。因為我們跟他們合作十年,對他們的痛點、要求理解比較深。

趙何娟:正好再講一講機器人發(fā)展態(tài)勢。你覺得大概還需要花多少年或者說多長時間,通用的機器人模型或者通用機器人的ChatGPT時刻能夠?qū)崿F(xiàn)?

王曉剛:如果要進(jìn)入家庭成為我們生活一部分的話,其實還需要比較長的時間。核心點在于有很多因素今天可能還沒考慮到,比如安全因素。自動駕駛有主動安全、出事故有責(zé)任方。機器人一旦進(jìn)入家庭,小孩好奇去摸它,給老人孩子遞東西要確保食物水的安全性等等,很多問題今天還沒考慮得非常清楚。

但如果從研究范式上來說,一旦找到正確的研究范式和思路,發(fā)展還是比較快的。

就像自動駕駛,剛開始嘗試不同方向,積累的數(shù)據(jù)到后面看用處都不大。但后面有了端到端自動駕駛,方向?qū)α?,?shù)據(jù)積累就比較快。今天我們?nèi)绻岩匀藶橹行牡倪@套研究范式走通、證明work,積累速度會遠(yuǎn)超原來的速度,極大提升產(chǎn)業(yè)發(fā)展。

趙何娟:所以其實最關(guān)鍵的一個點,如果讓你說影響通用機器人ChatGPT時刻發(fā)生的最關(guān)鍵突破點,你覺得是什么?

王曉剛:我覺得還是研究范式。

趙何娟:你提出了新的范式,是不是意味著只要驗證成功就行?

王曉剛:對,但這個范式下面應(yīng)該還有很多細(xì)節(jié)、具體實踐和工程化要去落實。

趙何娟:Transformer是關(guān)鍵里程碑,現(xiàn)在這種理論提出是不是關(guān)鍵點?

王曉剛:每個發(fā)展時期都很關(guān)鍵。

我們2016、2017年想做端到端自動駕駛,但那時候網(wǎng)絡(luò)結(jié)構(gòu)、Transformer還沒出來,算力也不支持。Transformer出來后,信息融合變得簡單、跨模態(tài)。

但接下來還有很多問題,比如理解物理世界需要長期記憶,可能需要新網(wǎng)絡(luò)架構(gòu)、新技術(shù)理論。這是產(chǎn)業(yè)和學(xué)術(shù)互動,具備數(shù)據(jù)場景后,有人就會在這方面發(fā)力,提出新理論促進(jìn)發(fā)展。

趙何娟:總結(jié)一下,這幾年從商湯角度或新成立的大曉機器人走向具身智能產(chǎn)業(yè)方向,你們做的最對的幾件事情?

王曉剛:首先堅持原創(chuàng)、堅持創(chuàng)新理念。

AI在不斷演進(jìn),無論受到什么壓力,我覺得這是企業(yè)的生命力。如果沒有這種目標(biāo),遇到壓力可能就退出、干別的難事了。但我們肩負(fù)著一代人的使命往前推進(jìn),背后這些精神動力追求貫穿始終。

第二是對人才的培養(yǎng)。每個時期我們源源不斷有新鮮血液加入,自己培養(yǎng)這些人。最開始市場上根本沒人,整個AI產(chǎn)業(yè)我們在培養(yǎng)人才。我覺得這個也比較關(guān)鍵。

轉(zhuǎn)載請注明出處、作者和本文鏈接。
聲明:文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 機器人要理解世界,得像人一樣學(xué),從日常行為里找規(guī)律

    回復(fù) 1月7日 · via h5
  • 企業(yè)和高校合作,學(xué)生能接觸真實項目,畢業(yè)就能上手,多好

    回復(fù) 1月7日 · via android
  • 具身智能要火,產(chǎn)業(yè)鏈都得動起來,從傳感器到芯片一個不能少

    回復(fù) 1月7日 · via iphone
  • 以前 VLA 范式只圍著機器轉(zhuǎn),難怪機器人沒法理解物理世界,換思路對了

    回復(fù) 1月7日 · via iphone
  • 環(huán)境式采集比實驗室數(shù)據(jù)強多了,機器人學(xué)的都是真本事

    回復(fù) 1月7日 · via iphone
  • 商湯以前在視覺領(lǐng)域厲害,現(xiàn)在拓展具身智能,是在延伸優(yōu)勢

    回復(fù) 1月7日 · via pc
  • 物理規(guī)律理解透了,機器人搬東西、開門才不會出錯,太重要了

    回復(fù) 1月7日 · via iphone
  • 2025 年具身智能投資漲得猛,可產(chǎn)品技術(shù)還在初級階段,有點虛火啊

    回復(fù) 1月7日 · via h5
  • AI 2.0 的 Scaling Law 用到頭了,新范式再不出來就沒后勁了

    回復(fù) 1月7日 · via pc
  • 具身智能要帶動可穿戴設(shè)備,中國在這領(lǐng)域機會多,得抓住啊

    回復(fù) 1月7日 · via pc
更多評論

快報

更多

2026-03-19 22:58

內(nèi)存漲價潮席卷全球,32G內(nèi)存條從800元暴漲到3800元

2026-03-19 22:57

團(tuán)隊版 OpenClaw (Clawith)宣布開源

2026-03-19 22:54

多家航司國際航線燃油附加費上調(diào)

2026-03-19 22:22

美股光通信概念股強勢拉升,Applied Optoelectronics 漲超6%

2026-03-19 22:13

ST泉為:公司及實控人、董事長褚一凡因涉嫌信息披露違法違規(guī)被證監(jiān)會立案調(diào)查

2026-03-19 22:03

現(xiàn)貨黃金跌3.78%,報4636.60美元/盎司

2026-03-19 22:02

東方財富:發(fā)布2026-2028年股東分紅回報規(guī)劃

2026-03-19 21:55

美元指數(shù)日內(nèi)走低0.50%,最低報99.70

2026-03-19 21:51

首都在線:2025年虧損1.7億元

2026-03-19 21:35

中國聯(lián)通:2025年凈利潤同比增長1.1%,擬派發(fā)全年股利約51.12億元

2026-03-19 21:35

納斯達(dá)克中國金龍指數(shù)跌3.0%,報6804.11點

2026-03-19 21:34

美股開盤:三大指數(shù)集體低開,美光科技跌超8%

2026-03-19 21:18

3月19日美股盤前要聞

2026-03-19 21:16

歐洲央行:維持三大關(guān)鍵利率不變,符合市場預(yù)期

2026-03-19 21:08

NYMEX鉑金主力合約跌超9%,報1870.1美元/盎司

2026-03-19 21:06

ST煉石:申請撤銷其他風(fēng)險警示

2026-03-19 21:05

滬金期貨主力合約跌6.45%,報1010元/克

2026-03-19 21:03

波羅的海干散貨指數(shù)跌0.34%,至2057點

2026-03-19 21:03

李寧全年營收296.0億元,預(yù)估290.3億元

2026-03-19 21:01

LME倫銅跌幅擴(kuò)大,現(xiàn)跌5.08%,最新報11765.5美元/噸

48

掃描下載App