三级在线视频无码专区,黄片大片网站视频,亚洲国产精品无码专区

“靠讀文章、看圖片，機器人永遠(yuǎn)不可能理解真實的物理世界。”

王曉剛表示，AI的研究范式，要從以機器為中心轉(zhuǎn)變成以人為中心，通過采集人類的真實行為數(shù)據(jù)，學(xué)習(xí)真實的物理規(guī)律，去訓(xùn)練具身智能的世界模型。世界模型不是泛指“一個世界”，它指的是人類存在的周圍環(huán)境。

具體來講，ACE范式就是以人類與物理世界的互動規(guī)律作為研究起點，以環(huán)境式數(shù)據(jù)采集為引擎，構(gòu)建了一套從“環(huán)境式數(shù)據(jù)采集—開悟世界模型3.0—具身交互”的技術(shù)體系。

其中，開悟世界模型3.0可以形成跨本體的統(tǒng)一世界理解框架，融合物理規(guī)律、人類行為和真機動作，使機器不僅能“理解”世界的物理規(guī)律和因果思維鏈，還能“生成”長時動靜態(tài)交互場景。

王曉剛認(rèn)為，隨著大模型的爆發(fā)，語言、圖文等多模態(tài)數(shù)據(jù)的價值逐漸被榨干，邊際效應(yīng)變得越來越低。目前，所有人都需要回答一個問題：除了過去人類在文章、圖文、互聯(lián)網(wǎng)上積累的這些智能數(shù)據(jù)以外，我們還有哪些新的智能？

“具身智能出現(xiàn)以后，大家期望用世界模型，與物理世界產(chǎn)生交互，理解人與環(huán)境交互過程中的物理規(guī)律、各種目標(biāo)的動態(tài)行為準(zhǔn)則。在這一過程中，具身智能領(lǐng)域?qū)a(chǎn)生新的智能。”王曉剛表示。

以下是趙何娟與王曉剛的對話內(nèi)容，略經(jīng)編輯：

趙何娟：大家好，歡迎來到今天趙何娟Talk @ T-EDGE的現(xiàn)場。今天我們請到了一位技術(shù)專家，也是現(xiàn)在炙手可熱的AI大模型和世界模型的研究專家——商湯科技聯(lián)合創(chuàng)始人王曉剛博士。曉剛博士，你好！

王曉剛：謝謝何娟老師，非常榮幸來到趙何娟Talk。鈦媒體這些年來一直都在關(guān)注商湯的發(fā)展和成長。因為商湯算是AI 1.0時代"四小龍"的領(lǐng)軍企業(yè)，后面發(fā)展到AI 2.0大模型時代，現(xiàn)在又開始進(jìn)入世界模型時代。這個時代的變遷，您都是見證者和實際的參與者。

趙何娟：我對您的經(jīng)歷非常感興趣。您是從科大少年班畢業(yè)，然后就進(jìn)入了視覺智能學(xué)習(xí)這個方向，一直從事相關(guān)行業(yè)?？梢哉f，您的參與和學(xué)習(xí)也是中國整個視覺計算行業(yè)發(fā)展的一個縮影。這也是為什么今天請您來到我們的直播間。

首先，我想跟您聊一聊關(guān)于您的學(xué)習(xí)經(jīng)歷。從科大少年班開始，您是怎么走上了AI和人工智能這條道路的？能不能先講講您的個人經(jīng)歷？

AI之路，從中科大少年班開始

王曉剛：我是1996年進(jìn)入中國科技大學(xué)少年班。但實際上我自己的年齡是正常的，那時候是18歲?？拼笥袀€少年班，當(dāng)時選了一批年齡很小、有才華的孩子，另外也從科大整個范圍內(nèi)選了一批學(xué)習(xí)比較好的學(xué)生，把他們混編在一起。

王曉剛：對，我們都一起上課、住在一起。我的同學(xué)當(dāng)時最小的才12歲，后來去了哈佛，現(xiàn)在是哈佛的教授。

前兩年，老師都是交給我們非?；A(chǔ)的數(shù)學(xué)和物理。到大三的時候，就可以選專業(yè)了，我就選了電子工程和信息系統(tǒng)，特別是圖像處理。那時候處理的還都是一些遙感圖像、地理信息系統(tǒng)。

其實整個信息還是比較閉塞的。在2000年之前，不太知道外面的世界是什么樣的，國際最好的AI研究水平是什么樣的。甚至，我們都不知道ICCV、CVPR這些頂級會議和期刊，都沒聽說過。

因為當(dāng)時整個中國，估計一年也就兩三篇CVPR這種水平的論文能中，基本都是從微軟亞洲研究院出來的。

我是2001年從中科大畢業(yè)，就到了湯曉鷗老師的多媒體實驗室。那時候湯老師才告訴我們CVPR和ICCV是最好的頂級會議，我們要朝著這個目標(biāo)做計算機視覺，但當(dāng)時整個實驗室其實也沒有發(fā)過這樣的頂級論文。

湯老師給我們設(shè)定了一個非常高的目標(biāo)，說我們的多媒體實驗室（MM Lab）將來一定能夠成長為世界頂級的實驗室，你們的目標(biāo)就是MIT、斯坦福、劍橋這樣的頂級學(xué)校。后來，在他的指引下，我們確實也做到了。

2004年我在多媒體實驗室、香港中文大學(xué)畢業(yè)的時候，我發(fā)了五篇CVPR和ICCV的論文。

趙何娟：那個時候發(fā)頂刊就已經(jīng)很厲害了。在這之前，整個中國一年一共才兩三篇，你畢業(yè)的時候有五篇，那是創(chuàng)紀(jì)錄的。

王曉剛：后來我申請MIT的時候，我的MIT導(dǎo)師叫Eric Grimson，他是EECS系的系主任，后來是MIT的Vice-Chancellor（校長）。他說這個學(xué)生可能是今年申請的最強的一個學(xué)生。

后來我就去了MIT。不光是我，包括我后面的師弟，也都到了MIT，還有的去了斯坦福、劍橋各個地方。

趙何娟：所以，從2004年到現(xiàn)在的20多年里，可以看到整個中國的科技人才，尤其是計算機相關(guān)的人才，井噴的數(shù)量和速度真的很驚人。我看了一個統(tǒng)計數(shù)據(jù)，中國在這種頂級刊物上發(fā)表的人工智能相關(guān)論文數(shù)量已經(jīng)排到全球第一了。

王曉剛：但是我們也不要忘掉，這個變化是一代一代人的努力完成的。

從零到一的突破的時候，那個時候是不敢想象的。我還記得2014年我們做人臉識別，湯老師希望有一天AI人臉識能夠超越肉眼的識別率。

我從MIT回來以后又回到了香港中文大學(xué)，就跟湯老師在一塊兒。當(dāng)時大家不知道AI能不能超越肉眼的識別率。所以后面我們把這個結(jié)果做出來以后，還在反復(fù)驗證。因為你有可能得到了一個結(jié)果，但這違反科學(xué)理論——AI永遠(yuǎn)超不過人類，你做出來的可能是錯誤結(jié)果。

我們一直在驗證，最后得出AI確實能夠超越肉眼識別率。當(dāng)時我們是跟Facebook去競爭，因為Facebook也有這樣一個項目，也要超過肉眼，它的計算資源和數(shù)據(jù)是遠(yuǎn)遠(yuǎn)超過我們的。但我們當(dāng)時最先到達(dá)了這條紅線。

AI的3.0時代，世界模型

趙何娟：在商湯科技誕生之前，我記得其實在美國，包括李飛飛教授發(fā)起的ImageNet行動，其實都在這條路上努力。但為什么說商湯當(dāng)是全球第一個實現(xiàn)AI識別率超過人眼？

王曉剛：那時候ImageNet是一個更廣泛的、更難的任務(wù)，但它也沒有達(dá)到肉眼的水平。因為人臉識別當(dāng)時工業(yè)應(yīng)用背景非常廣泛，一旦成功的話，很多地方都能用起來。而且你看我們最后在人臉識別上達(dá)到了超過99%的識別率，肉眼大概是98%的識別率，所以這是第一個超越。

當(dāng)然，ImageNet也參加了比賽，拿了幾項第一名。2015年，ImageNet還做了圖像檢測、視頻識別，也是在這個賽道上。

趙何娟：所以其實這種你追我趕的過程，也推動了整個AI 1.0視覺識別時代的大發(fā)展。

王曉剛：對。我覺得這里面核心的點就是你要不斷突破自我的局限，或者當(dāng)時那個時代的局限。

你看最開始我們不能發(fā)CVPR的文章，覺得根本發(fā)不了。湯老師說你能發(fā)。當(dāng)時說AI不能夠超越肉眼，我們能夠超越肉眼的識別率。今天有這么多華人科學(xué)家發(fā)了這么多論文，今天我們應(yīng)該想的是怎么進(jìn)一步突破自己的局限。

王曉剛：今天從1.0、2.0到3.0的發(fā)展，這個研究范式還是有下一代的，我們要能夠提出這種新的研究范式。

比如AI 1.0可能更多是在視覺識別，更多考慮的是識別率，從杰弗里·辛頓開始提到了87%，到商湯你們做到了99%超過肉眼。

然后到AI 2.0時代，不再談視覺識別率，而是談Scaling Law，大力出奇跡，數(shù)據(jù)、算法和算力變成了最核心的要素。

再到AI 3.0，或者可能是2.0的延伸，就是世界模型?，F(xiàn)在又到了一個新的瓶頸和十字路口，可能需要新的核心范式。如果說總結(jié)AI發(fā)展的整個范式發(fā)展，你覺得現(xiàn)在最核心必須要突破的局限是什么？到下一代范式，可能會在哪個方向發(fā)生？

王曉剛：這里面要核心回答的一個問題是：智能是從哪里來的？我們怎么能夠用模型或算法把它挖掘出來？

回想1.0時代，我們做人臉識別，智能從哪來？圖像本身沒有智能，是人加了標(biāo)簽。其實當(dāng)時不同領(lǐng)域，每個任務(wù)都靠人進(jìn)行標(biāo)注。這里注入的智能效率非常低，也比較少。所以那個時代基本上用一些小模型就夠了，很難做到通用化程度。

趙何娟：所以AI 1.0時代的核心局限在于標(biāo)注的局限性。

到了2.0時代，我們發(fā)現(xiàn)用了大量語言或圖文結(jié)合的東西。這些都是人類歷史上幾千年積累的人類行為，比如寫文章、寫代碼，體現(xiàn)了人類智慧，而且跨越了非常多不同領(lǐng)域。這些智能已經(jīng)存在在那里了，我們用技術(shù)手段把它提取出來，這就是大模型。

Scaling Law成功的就是把這幾千年積累的智能挖掘出來了。其實大模型本身并不稀奇，因為2019年開始我們在視覺領(lǐng)域也在嘗試使用大模型。我們當(dāng)時做了一個320億參數(shù)的視覺大模型，比谷歌當(dāng)時200多億參數(shù)的還要大，確實在視覺識別效果也更好。

王曉剛：谷歌當(dāng)時有YouTube和搜索的數(shù)據(jù)，我們因為在視覺行業(yè)領(lǐng)域積累了很多年，也有大量行業(yè)數(shù)據(jù)。但達(dá)不到通用性，因為數(shù)據(jù)本身還是圖像加標(biāo)注，里面存在的智能比較少。所以我們沒有發(fā)現(xiàn)ChatGPT這樣的時刻。

但當(dāng)大模型用到語言、圖文、多模態(tài)數(shù)據(jù)里面，一下子就爆發(fā)出來了。我覺得那個其實是一個比較重要的點。

但今天我們會發(fā)現(xiàn)，這些又遇到Scaling Law瓶頸了。核心原因是現(xiàn)有數(shù)據(jù)的價值逐漸被榨干，邊際效應(yīng)越來越低，所以我們要回答：除了過去人類在文章、圖文、互聯(lián)網(wǎng)上積累的這些智能數(shù)據(jù)以外，我們還有哪些新的智能？

趙何娟：所以現(xiàn)在的核心局限是數(shù)據(jù)本身的來源已經(jīng)被耗干了。

王曉剛：之前還停留在互聯(lián)網(wǎng)上積累的數(shù)據(jù)，所以現(xiàn)在我們想到了具身智能的世界模型，就要跟物理世界交互，理解人與環(huán)境交互過程中的物理規(guī)律、各種目標(biāo)的動態(tài)行為準(zhǔn)則，這里面產(chǎn)生新的智能。所以，我們說3.0時代實際上是對它的期待。

趙何娟：你核心的期望是指針對物理世界的數(shù)據(jù)搜集，除了數(shù)據(jù)之外，還有新的算法突破嗎？因為對于世界模型來說，首先數(shù)據(jù)收集就很難，大自然世界里面這樣的數(shù)據(jù)很少被收集到。然后這些收集到的數(shù)據(jù)本身的處理，是不是跟過去大語言模型的算法又可能必須不一樣？

其實我們也在思考這個問題。今天具身智能的研究范式是VLA，這是一個以機器為中心（machine-centric）的研究范式。就是給機器一個圖像，給一個指令，它直接想完成動作，中間不需要理解環(huán)境、世界、物理規(guī)律。而且人們當(dāng)時期望著，2.0時代有大模型、有通用人工智能，把一個大模型搬到機器上，機器也就具有了通用人工智能，這個時代是不是就到來了？

為什么呢？首先機器的物理結(jié)構(gòu)都不一樣，有人形的、有兩個機械臂、有一個機械臂、有夾爪、有靈巧手、有機器狗、有掃地機器人。大家可以想象，當(dāng)物理形態(tài)都不一樣的時候，怎么能期待它們有一個通用的同樣的大腦？就像人跟狗不可能擁有同樣的大腦結(jié)構(gòu)，因為物理結(jié)構(gòu)不一樣。

但今天研究范式就存在這個問題。比如把每個不同類型的機器人按它的方式采集真機數(shù)據(jù)，集合在一起訓(xùn)練一個模型作為機器人大腦。這種方式是不可能達(dá)到通用性的，而且過程中不需要理解周圍環(huán)境、物理規(guī)律、世界是什么。

以人為中心，新的具身智能研究范式

趙何娟：你覺得現(xiàn)在的轉(zhuǎn)變或者說你們新的想法，最大的瓶頸或困難是什么？

我們提出來，從以機器為中心變成以人為中心。你先不要去管機器，先去觀察人是怎么完成各種任務(wù)、各種活動的?，F(xiàn)在有各種穿戴式設(shè)備、AI眼鏡、第一視角攝像頭，在胸前、手上、周圍可以裝各種傳感器。去年巴黎奧運會乒乓球和籃球比賽，我們周圍安排傳感器，直接能分析運動員怎么打球、球速什么樣，看人是怎么學(xué)習(xí)和運動的。將來還要放人的力分析、觸覺、摩擦力等信息。

這個模型需要理解物理規(guī)律，人跟物理世界、環(huán)境相結(jié)合時產(chǎn)生的物理規(guī)律是什么。打開冰箱門想拿一瓶水、穿衣服，接觸的這些物理世界的規(guī)律是什么。在這個過程中，世界模型要經(jīng)過一系列算法改變，理解物理世界，合成物理世界里各種人和機器產(chǎn)生的活動，甚至能預(yù)測。

今天大家也意識到VLA這套東西走不出來，但可能還沒有意識到應(yīng)該從以機器為中心變成以人為中心。

所以今年8、9月份，特斯拉說以前靠真機操作，現(xiàn)在要變成通過視覺、戴第一視角眼鏡采集數(shù)據(jù)。好處是采集效率很高，真機操作效率很低，而且不能在真實生產(chǎn)、生活環(huán)境中做復(fù)雜活動。十幾分鐘甚至一小時的長程復(fù)雜活動，靠操作真機沒法完成。但有了以人為中心的記錄人活動，穿戴設(shè)備在家庭生活、辦公室裝傳感器，就能長期記錄人行為。

但即便這樣，大家對這件事的認(rèn)知還停留在視覺上，但人對物理世界的交互不止于視覺，還有力、觸覺、人體工學(xué)等研究。這就是為什么特斯拉和Figure AI會想到用視覺方案，因為視覺最簡單，能記錄人類行為，他們在自動駕駛里取得了成功。但自動駕駛跟機器人有很大不一樣，自動駕駛是避免物理接觸，機器人必須進(jìn)行物理接觸。

光用視覺做物理接觸，比如拿一瓶水放這兒，動作是先拿起來、移動、放下。但真正的人可能推一下，因為知道摩擦力，知道使多大勁能把它從位置A推到位置B。很多行為，人的行為跟機器人不一樣。如果我們未來能以人為中心，新的研究范式就能讓機器人大腦真正理解物理世界。這樣的大腦永遠(yuǎn)不可能只靠讀文章、看圖片理解物理世界，這是研究范式根本的改變。

從研究或者說智能的來源，過去是由機器搜集數(shù)據(jù)來的，不管是人工標(biāo)注也好，都是機器收集的數(shù)據(jù)。到現(xiàn)在可能更多要通過人自己收集數(shù)據(jù)，以及怎么去觀察人。

但這里有個很大的問題：人的行為不是單一的。比如我的手去碰觸話筒、握東西、拿東西，它是跟大腦連接的，行為數(shù)據(jù)里面不僅有手觸碰的物理數(shù)據(jù)本身，還連通大腦神經(jīng)數(shù)據(jù)的變化。如果說我們做世界模型或機器人模型分析，我只有手這部分?jǐn)?shù)據(jù)，怎么分析手這部分?jǐn)?shù)據(jù)的反饋機制？因為我不能分析大腦，但我們實際要做的是機器人的大腦本身。

趙何娟：我們怎么聯(lián)合？我們怎么解決大腦的分析，就是神經(jīng)分析和行為數(shù)據(jù)之間的關(guān)系？

大腦在執(zhí)行任務(wù)過程中需要有記憶，有長程的復(fù)雜記憶。比如說收拾桌子，有書籍，書原來放在書架上，書架在什么位置，我就要把書放回原來書架位置。大腦得記住書在書架的什么位置、怎么擺放。

機器每天接受大量不間斷信息，不可能都記下來，一定要進(jìn)行挑選。要記跟任務(wù)相關(guān)的，在物理世界執(zhí)行任務(wù)過程中會得到反饋，什么東西任務(wù)成功了，就知道當(dāng)時應(yīng)該記住什么。在不斷迭代反饋過程中，大腦要進(jìn)化，能夠有長期記憶。

趙何娟：那怎么解決？除了長期記憶這個當(dāng)然非常重要的點，怎么解決神經(jīng)分析和行為數(shù)據(jù)之間的關(guān)系？

有些東西看到了就自然反應(yīng)，比如讓我水平移動一下，條件反射就知道該怎么移動，這就是小腦的指令完成。還有更復(fù)雜的任務(wù)，要分幾個階段，要去規(guī)劃，這些東西可能就要跟我們互聯(lián)網(wǎng)上的那些數(shù)據(jù)結(jié)合。

比如炒菜，先怎么做后怎么做，實際上是有規(guī)劃的，以前積累的互聯(lián)網(wǎng)文章、圖文數(shù)據(jù)是有價值的。所以我們要把數(shù)字世界和物理世界這兩個能夠打破邊界，最后形成強大的機器人。

趙何娟：人的大腦這種邊界怎么打破？現(xiàn)在可能最難的就是怎么研究把這個邊界打破。

王曉剛：我覺得里面肯定還有很長的路要走，大家努力方向也是希望打破邊界。

但要往這個方向努力完成這項工作，首先認(rèn)知和方向得是對的，要知道現(xiàn)在研究這件事的方向、范式已經(jīng)發(fā)生變化。如果還一直在操作原來那些真機數(shù)據(jù)，你是永遠(yuǎn)不可能達(dá)到目標(biāo)的。

趙何娟：你這么說是不是意味著人形機器人發(fā)展沒什么前途？

王曉剛：我覺得還是有前途。因為我們的物理世界就是圍繞著人打造的，核心的研究是我們通過人來研究人跟物理世界的關(guān)系，把這些智能和知識轉(zhuǎn)移到人形機器人身上。

趙何娟：把它當(dāng)實驗品？就是人來收集這些數(shù)據(jù)是否可用？

王曉剛：一旦我們的世界模型、強大的大腦形成以后，它可以指導(dǎo)我們設(shè)計人形機器人，怎么設(shè)計最能有效實踐大腦意志、實現(xiàn)工作和行為。

現(xiàn)在情況可能相反，我們先設(shè)計了一個機器人，實際上沒有大腦，靠它采集各種數(shù)據(jù)，背后可能是不工作的，這就是以前走的、現(xiàn)在還在走的方式。

將來可能需要以人為中心，這種方式會打開一扇門。因為過去有很多像工程力學(xué)、人體工程學(xué)研究了很多關(guān)于人的力、人體工學(xué)，但這些成果從來沒跟機器人聯(lián)系在一起，原來也不是以人為中心的研究。兩邊沒有關(guān)系，但今天產(chǎn)生關(guān)聯(lián)，我覺得很多這方面的研究成果可以大量進(jìn)入人工智能領(lǐng)域。

趙何娟：嗯嗯，有道理。但再往前發(fā)展，可能人的數(shù)據(jù)發(fā)展會不會先產(chǎn)生一個大規(guī)?？纱┐魇袌雠畈l(fā)展？硬件加AI。

這里面怎么設(shè)計？今天特斯拉說要做視覺方案，就會有一批公司做頭部穿戴設(shè)備、第一視角。但我們會知道這只是一部分，第一視角看到的東西只是視覺方面，跟物理世界的交互只是單一維度，還有很多其他傳感器可以加進(jìn)來。

所以隨著對這件事認(rèn)知不斷深入，這些設(shè)備也會不斷豐富。不光有穿戴的，還有周圍環(huán)境建立的傳感器，能夠觀察我們的行為。

趙何娟：你剛才多次提到傳感器。是不是意味著我們這么多年一直在以視覺為核心的智能發(fā)展，也走到了瓶頸？視覺不是唯一方式了，傳感器本身會不會有新的突破？

王曉剛：未來人工智能發(fā)展，像OpenAI提出來的是"環(huán)境計算"。

未來人工智能像空氣一樣存在周圍環(huán)境中。今天的人工智能要打開手機、電腦、APP才能激活，發(fā)出請求給ChatGPT，它才回答。但將來不是這樣，模型一直在分析，當(dāng)我需要什么時主動提供服務(wù)。所以核心第一個是計算芯片，加上各種豐富的AI傳感器，再加上模型，這三個要素構(gòu)成未來人工智能新體驗。

趙何娟：有意思。相當(dāng)于剛才說到了兩個可能新興發(fā)展的產(chǎn)業(yè)，一個是可穿戴，過去就有，但在新AI浪潮里可能迎來大機會；第二個是智能傳感器。智能傳感器這塊中國發(fā)展規(guī)模和程度怎么樣？

王曉剛：過去AI傳感器發(fā)展速度遠(yuǎn)低于計算芯片。主要我覺得還是沒有把里面的價值充分發(fā)掘出來，沒有看到前景。

以前我們跟合作伙伴設(shè)計過三層AI傳感器：第一層光學(xué)感知層，信號進(jìn)來變成模擬信號；第二層數(shù)字計算，數(shù)字化處理；第三層把AI引擎、AI模型放到傳感器里。以前AI大模型放在云端，后來放手機上，現(xiàn)在放在小小傳感器里，鋪滿生活環(huán)境各個角落。如果人工智能發(fā)展是環(huán)境式計算，AI傳感器會占據(jù)重要位置，這是巨大機會。

就像之前做CPU、GPU是萬億級市場，傳統(tǒng)做傳感器的也很多。將來有了各種人工智能傳感器，會產(chǎn)生又一個巨大賽道。

趙何娟：人工智能傳感器變化的核心也是芯片驅(qū)動嗎？

趙何娟：那這是不是意味著中國繼續(xù)往前發(fā)展的很大機會？

王曉剛：這是非常巨大的機會，AI和傳感器結(jié)合。我們有傳感器，而且跟其他國家相比，我們的AI發(fā)展還是非常快的。有很多場景驅(qū)動，蘊藏機會，而且跟機器人密切相關(guān)。

想象機器人進(jìn)入家庭，安全性非常重要。給老人遞水不能是燙的，給食物必須是新鮮的。如果出問題，像自動駕駛有主動安全、有責(zé)任方。機器人到家要確保小孩靠近時不產(chǎn)生碰撞，皮膚要能感受距離、產(chǎn)生避障。所有這些離不開智能化傳感器，應(yīng)用空間非常大。

趙何娟：接下來發(fā)展是不是意味著剛才講到的數(shù)據(jù)、范式改變，還有一個很核心就是算力、芯片？包括智能傳感器、新機器人大腦，都要有算力驅(qū)動、芯片驅(qū)動。

中國現(xiàn)在又在大量國產(chǎn)化，推動自主知識產(chǎn)權(quán)和自主可控的芯片產(chǎn)業(yè)發(fā)展。您覺得中國現(xiàn)在國產(chǎn)芯片發(fā)展階段，在驅(qū)動智能傳感器、新機器人大腦這些方向上，現(xiàn)在處于什么水平？夠嗎？

王曉剛：發(fā)展非?？?。但今天可能面臨或要解決的最大問題是生態(tài)問題，軟件生態(tài)。

英偉達(dá)應(yīng)該超過一半是軟件工程師，CUDA有生態(tài)。今天單純看算力指標(biāo)都非常好，幾百T的算力，追趕比較快。但要把算力轉(zhuǎn)換為實際計算結(jié)果和效率，就存在模型適配問題?，F(xiàn)在AI發(fā)展，新模型層出不窮，大家都想領(lǐng)先。有了模型后，如果花幾個月時間進(jìn)行新模型適配，開發(fā)者是等不及的。

以前市場上比較多的是英偉達(dá)GPU，已經(jīng)做了很好適配，開發(fā)出來的模型自然跟英偉達(dá)芯片適配好。但今天其他芯片要花時間適配，所以接下來開源生態(tài)會變得非常重要。開源后才有更多社區(qū)的人使用模型，模型跟哪個芯片適配得好，哪個芯片使用起來就更方便。將來開源也是推動國產(chǎn)AI發(fā)展自主可控非常重要的方面。

這個月我們已經(jīng)開源世界模型（開悟世界模型3.0），而且是持續(xù)更新迭代，提升社區(qū)影響力。這個模型會和各種國產(chǎn)芯片適配。

趙何娟：模型要跟芯片適配，相當(dāng)于軟件上的適配。這種適配過程是你們的團(tuán)隊完成還是芯片團(tuán)隊完成？共同機制是什么？

王曉剛：因為芯片底層有很多底層軟件，怎么樣調(diào)度算力。我們在模型層面怎么樣去優(yōu)化算子實現(xiàn)，是我們來做。所以兩邊要共同努力，基本上要根據(jù)硬件不同重新設(shè)計算法，達(dá)到比較高效。

趙何娟：正好說到你們現(xiàn)在做的大曉機器人公司。大曉機器人做的具身智能跟其他公司，比如說在模型和芯片磨合、選擇范式上有什么區(qū)別？從大曉機器人本身現(xiàn)在在做的產(chǎn)品方向來說，它跟其他具身智能產(chǎn)品有什么不同？

王曉剛：我覺得有兩點。首先技術(shù)路線上有新的技術(shù)路線，第二點是對產(chǎn)品化和場景的理解。

第一點上，大家可能不知道，今年年初我們的團(tuán)隊（劉子緯教授）發(fā)布了叫EgoLife的數(shù)據(jù)集，記錄了人在生活當(dāng)中的常識行為300個小時。這個數(shù)據(jù)集，像Yann LeCun（楊立昆）他們就基于這個數(shù)據(jù)集建了具身世界模型。

這個工作實際上在今年年初數(shù)據(jù)集就發(fā)布了，那時候我們已經(jīng)提出環(huán)境式采集這個概念。所以我們走在行業(yè)前面，我們的環(huán)境式采集加上世界模型，再加上具身基模型，這三部分組合在一起構(gòu)成我們的研究范式，我們叫ACE，就是以人為中心的新的研究方式。

我們的世界模型有獨特特點，分三部分：第一部分是多模態(tài)融合理解，有各種攝像頭、3D軌跡、相機位姿、力、觸覺等，框架可擴(kuò)展；第二部分是生成模型，能生成各種行為。這個月發(fā)布的開悟平臺里，可以選擇各種機器人本體（智源、宇樹、銀河通用等），告訴它做什么事，就能自由合成機器人完成的視頻和參數(shù)，這些可以用來訓(xùn)練機器人；第三部分是預(yù)測，預(yù)測機器人操作過程。這就是我們世界模型的三部分。

趙何娟：我可以總結(jié)說，開悟世界模型跟傳統(tǒng)主流VLA這種具身智能模型最大的不同是來自于以人為中心的不同。除了這個不同，還有其他不同嗎？

比如像李飛飛他們做的World Labs，人生成4D世界可以在里面漫游，但沒辦法把目標(biāo)分開、產(chǎn)生互動，因為使用目的不同。但現(xiàn)在在我們的世界里，可以把桌子換成不同類型，打開冰箱門產(chǎn)生不同交互行為。

我對動靜態(tài)目標(biāo)、物理世界理解更深刻，可以精準(zhǔn)可控、隨便編輯世界元素。這樣就可以把原來一個房間采集的人體數(shù)據(jù)，生成成千上萬不同類型戶型、環(huán)境里產(chǎn)生的數(shù)據(jù)。

大家通常用生成式網(wǎng)絡(luò)，類似Sora生成視頻。核心是怎么生成，但不強調(diào)前面的世界理解、多模態(tài)融合，所以框架很難拓展。但我們前不久跟南洋理工大學(xué)合作的Puffin工作，把相機位置加進(jìn)去了。給我一張圖片就能倒推相機位姿，如果相機在機器人手腕上，機器人不停動時看到的視頻怎么變化，根據(jù)視頻變化反推機器人做什么動作。這樣物理世界的概念就能在里面形成。

王曉剛：比如人跳舞，捕捉人體關(guān)鍵點、手的動作，可以轉(zhuǎn)移到機器人上驅(qū)動機器人跳舞。今天能看到一些工作做這樣的事，但相對簡單，只是人自身行為，沒有跟環(huán)境互動。更難的是人拿東西、收拾衣服，這些行為要轉(zhuǎn)移到機器人身上，就需要更復(fù)雜地對物理目標(biāo)、環(huán)境對象進(jìn)行建模。

趙何娟：如果未來這些要發(fā)生變化，在這些變化里面，你覺得現(xiàn)在的人才或者培養(yǎng)這些人才能滿足未來需求嗎？

原來研究力學(xué)、人體工程學(xué)的這些人跟機器人沒關(guān)系，現(xiàn)在可以納入體系。原來數(shù)據(jù)采集和機器人控制是分開的，今天要更綜合的人才，既要懂模型也要懂運控。采數(shù)據(jù)、布傳感器時就要考慮機器人控制時需要什么信號、部署什么傳感器、用什么數(shù)據(jù)格式，這些都是比較綜合一體的。

趙何娟：這些綜合能夠運控和研究模型、計算機相關(guān)的人才，也包括以前根本不在AI賽道上的研究力學(xué)、物理學(xué)的這些人才。這些人才中國有優(yōu)勢嗎？

王曉剛：有，因為我們有廣泛的人才基礎(chǔ)，還有很多學(xué)科，制造業(yè)也非常發(fā)達(dá)。實際上有非常好的基礎(chǔ)。今天我們要做的是把未來研究方向、研究體系梳理清楚，讓大家融入里面，最后形成合力，形成綜合性人才體系。

趙何娟：我覺得最難的是怎么把過去已經(jīng)形成的學(xué)科體系，通過不同實驗室、不同培養(yǎng)方式、研究機制，讓跨學(xué)科人才聚集到一起，用同樣的工作機制協(xié)同，朝一個目標(biāo)發(fā)展。這是一個巨大的教育挑戰(zhàn)。

趙何娟：誰來做這個頂層設(shè)計？企業(yè)還是教育部？

王曉剛：首先我自己有教育背景，是大學(xué)教授，團(tuán)隊很多來自大學(xué)，對人才培養(yǎng)有認(rèn)知。

今天在企業(yè)、工業(yè)第一線，極大提升了我們對行業(yè)發(fā)展、研究路線的認(rèn)知。它可以反哺教育體系。首先在公司里面，需要跟不同學(xué)科專業(yè)的教授或人才合作，讓他們納入公司研發(fā)體系。這是公司的頂層設(shè)計。設(shè)計好以后反哺學(xué)校，在開設(shè)交叉學(xué)科時應(yīng)該怎么設(shè)計課程。以前很多課程比較老，現(xiàn)在發(fā)展迭代非常快。

趙何娟：現(xiàn)在這種機制，通過企業(yè)綜合培養(yǎng)然后反哺高校研究院的機制，現(xiàn)在普遍嗎？

王曉剛：還挺普遍的。特別是在AI發(fā)展的這十年里，越來越多的學(xué)生上學(xué)期間就到企業(yè)實習(xí)。

商湯2014年成立時市場上沒有AI人才，尤其是深度學(xué)習(xí)人才。你知道2014年1月，谷歌收購了一家公司，沒有任何產(chǎn)品、技術(shù)，只有12個深度學(xué)習(xí)專家，叫DeepMind，說明當(dāng)時市場上沒有。

所以商湯成立時從高校大量招募實習(xí)生，可能一個全職帶十幾個實習(xí)生，逐漸培養(yǎng)他們。2021年商湯上市前統(tǒng)計，從2014年到2021年，商湯這么一個不大的公司，自己的實習(xí)生大概超過3000人，歷史上培養(yǎng)了超過3000名AI人才。

有的實習(xí)生后來去香港中文大學(xué)讀博士，博士畢業(yè)又成了教授。我們大曉機器人核心團(tuán)隊里，相當(dāng)一部分教授是我的學(xué)生，有的在商湯實習(xí)過，因為他們又成長起來了。

你可能不知道，我們在香港中文大學(xué)是湯老師上世紀(jì)90年代成立的MM Lab。后面大家畢業(yè)以后開枝散葉，去了香港大學(xué)、清華大學(xué)、南洋理工各個地方。這些學(xué)生自發(fā)地成了老師，又在那些地方成立MM Lab。所以國內(nèi)好多地方都有MM Lab，傳承是一致的。

今天我們要成立大曉機器人時，新成長起來的這批MM Lab學(xué)生變成了老師，有新的知識體系。AI浪潮1.0、2.0、3.0不斷演進(jìn)，每次產(chǎn)生質(zhì)的跨越都需要創(chuàng)業(yè)，創(chuàng)業(yè)是最好的形式推向下一階段。思想和精神傳承，人可能變了，我們做的事情也變了，但愿景沒有變。

湯老師給商湯的愿景是"堅持原創(chuàng)，讓AI引領(lǐng)人類的進(jìn)步"，我們一直都走在創(chuàng)新路上。

AI 1.0在小模型時代，作為軟件賦能ToB，在中國比較難。但今天機器人方向，我們最終要輸出軟硬一體的整體產(chǎn)品，要做垂直化整合，這是擺在面前非常重要的機會。

趙何娟：我是不是也可以理解你們也還是會做機器人本體？軟硬一體就是你的本體是跟別人合作的，你是還是輸出軟件？

王曉剛：今天我們說硬件的本體，它關(guān)鍵的問題在于它不滿足場景的需求。

首先我們做這個產(chǎn)品，我們深入到各個場景里面去，我知道這個硬件是怎么樣的設(shè)計，關(guān)鍵的這些部件是怎么樣的。

我們會對他提要求，所以今天我們這么多的合作伙伴，和包括我們的有一些被投的企業(yè)，我們在一起的時候，他們也愿意給我們供應(yīng)零部件、供應(yīng)本體。那么我們重要的是一起能夠把這個市場能夠去做大，但是我們輸出的不單純是軟件，我們軟硬件是在一起。

機器人這么多的場景，這么多的賽道，空間還是很大的，這是一個幾十萬億的的賽道，給我們有很大的發(fā)展的空間。它的數(shù)量可能是比手機還要多，但是單價可能是跟汽車是一個水平的。

趙何娟：我可以理解為你們現(xiàn)在做的機器人更多往商用和工業(yè)用方向？

王曉剛：第一步可能是ToB會多一些，這也是我們過去的一些優(yōu)勢，對場景的理解。當(dāng)客戶聽到我們要做機器人，他們非常高興、有期待，覺得我們應(yīng)該做。因為我們跟他們合作十年，對他們的痛點、要求理解比較深。

趙何娟：正好再講一講機器人發(fā)展態(tài)勢。你覺得大概還需要花多少年或者說多長時間，通用的機器人模型或者通用機器人的ChatGPT時刻能夠?qū)崿F(xiàn)？

王曉剛：如果要進(jìn)入家庭成為我們生活一部分的話，其實還需要比較長的時間。核心點在于有很多因素今天可能還沒考慮到，比如安全因素。自動駕駛有主動安全、出事故有責(zé)任方。機器人一旦進(jìn)入家庭，小孩好奇去摸它，給老人孩子遞東西要確保食物水的安全性等等，很多問題今天還沒考慮得非常清楚。

但如果從研究范式上來說，一旦找到正確的研究范式和思路，發(fā)展還是比較快的。

就像自動駕駛，剛開始嘗試不同方向，積累的數(shù)據(jù)到后面看用處都不大。但后面有了端到端自動駕駛，方向?qū)α?，?shù)據(jù)積累就比較快。今天我們?nèi)绻岩匀藶橹行牡倪@套研究范式走通、證明work，積累速度會遠(yuǎn)超原來的速度，極大提升產(chǎn)業(yè)發(fā)展。

趙何娟：所以其實最關(guān)鍵的一個點，如果讓你說影響通用機器人ChatGPT時刻發(fā)生的最關(guān)鍵突破點，你覺得是什么？

趙何娟：你提出了新的范式，是不是意味著只要驗證成功就行？

王曉剛：對，但這個范式下面應(yīng)該還有很多細(xì)節(jié)、具體實踐和工程化要去落實。

趙何娟：Transformer是關(guān)鍵里程碑，現(xiàn)在這種理論提出是不是關(guān)鍵點？

我們2016、2017年想做端到端自動駕駛，但那時候網(wǎng)絡(luò)結(jié)構(gòu)、Transformer還沒出來，算力也不支持。Transformer出來后，信息融合變得簡單、跨模態(tài)。

但接下來還有很多問題，比如理解物理世界需要長期記憶，可能需要新網(wǎng)絡(luò)架構(gòu)、新技術(shù)理論。這是產(chǎn)業(yè)和學(xué)術(shù)互動，具備數(shù)據(jù)場景后，有人就會在這方面發(fā)力，提出新理論促進(jìn)發(fā)展。

趙何娟：總結(jié)一下，這幾年從商湯角度或新成立的大曉機器人走向具身智能產(chǎn)業(yè)方向，你們做的最對的幾件事情？

AI在不斷演進(jìn)，無論受到什么壓力，我覺得這是企業(yè)的生命力。如果沒有這種目標(biāo)，遇到壓力可能就退出、干別的難事了。但我們肩負(fù)著一代人的使命往前推進(jìn)，背后這些精神動力追求貫穿始終。

第二是對人才的培養(yǎng)。每個時期我們源源不斷有新鮮血液加入，自己培養(yǎng)這些人。最開始市場上根本沒人，整個AI產(chǎn)業(yè)我們在培養(yǎng)人才。我覺得這個也比較關(guān)鍵。

發(fā)表評論

0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求，請綁定手機號后發(fā)表評論

請登錄后輸入評論內(nèi)容

__田胖子
機器人要理解世界，得像人一樣學(xué)，從日常行為里找規(guī)律
回復(fù) 1月7日 · via h5
泡沫草莓
企業(yè)和高校合作，學(xué)生能接觸真實項目，畢業(yè)就能上手，多好
回復(fù) 1月7日 · via android
一桶云_
具身智能要火，產(chǎn)業(yè)鏈都得動起來，從傳感器到芯片一個不能少
回復(fù) 1月7日 · via iphone
MYSR198909
以前 VLA 范式只圍著機器轉(zhuǎn)，難怪機器人沒法理解物理世界，換思路對了
回復(fù) 1月7日 · via iphone
詞窮勒
環(huán)境式采集比實驗室數(shù)據(jù)強多了，機器人學(xué)的都是真本事
回復(fù) 1月7日 · via iphone
悟者英雄傳
商湯以前在視覺領(lǐng)域厲害，現(xiàn)在拓展具身智能，是在延伸優(yōu)勢
回復(fù) 1月7日 · via pc
Mistygin
物理規(guī)律理解透了，機器人搬東西、開門才不會出錯，太重要了
回復(fù) 1月7日 · via iphone
夢飛君
2025 年具身智能投資漲得猛，可產(chǎn)品技術(shù)還在初級階段，有點虛火啊
回復(fù) 1月7日 · via h5
下輩子不做打工人
AI 2.0 的 Scaling Law 用到頭了，新范式再不出來就沒后勁了
回復(fù) 1月7日 · via pc
-KazamiHayato
具身智能要帶動可穿戴設(shè)備，中國在這領(lǐng)域機會多，得抓住啊
回復(fù) 1月7日 · via pc

更多評論

快報

2026-03-19 22:58
內(nèi)存漲價潮席卷全球，32G內(nèi)存條從800元暴漲到3800元

2026-03-19 22:57
團(tuán)隊版 OpenClaw （Clawith）宣布開源

2026-03-19 22:54
多家航司國際航線燃油附加費上調(diào)
2026-03-19 22:22
美股光通信概念股強勢拉升，Applied Optoelectronics 漲超6%
2026-03-19 22:13
ST泉為：公司及實控人、董事長褚一凡因涉嫌信息披露違法違規(guī)被證監(jiān)會立案調(diào)查

2026-03-19 22:03
現(xiàn)貨黃金跌3.78%，報4636.60美元/盎司

2026-03-19 22:02
東方財富：發(fā)布2026-2028年股東分紅回報規(guī)劃

2026-03-19 21:55
美元指數(shù)日內(nèi)走低0.50%，最低報99.70
2026-03-19 21:51
首都在線：2025年虧損1.7億元

2026-03-19 21:35
中國聯(lián)通：2025年凈利潤同比增長1.1%，擬派發(fā)全年股利約51.12億元

2026-03-19 21:35
納斯達(dá)克中國金龍指數(shù)跌3.0%，報6804.11點

2026-03-19 21:34
美股開盤：三大指數(shù)集體低開，美光科技跌超8%
2026-03-19 21:18
3月19日美股盤前要聞

2026-03-19 21:16
歐洲央行：維持三大關(guān)鍵利率不變，符合市場預(yù)期

2026-03-19 21:08
NYMEX鉑金主力合約跌超9%，報1870.1美元/盎司

2026-03-19 21:06
ST煉石：申請撤銷其他風(fēng)險警示

2026-03-19 21:05
滬金期貨主力合約跌6.45%，報1010元/克

2026-03-19 21:03
波羅的海干散貨指數(shù)跌0.34%，至2057點

2026-03-19 21:03
李寧全年營收296.0億元，預(yù)估290.3億元

2026-03-19 21:01
LME倫銅跌幅擴(kuò)大，現(xiàn)跌5.08%，最新報11765.5美元/噸

以下是趙何娟與王曉剛的對話內(nèi)容，略經(jīng)編輯：

AI之路，從中科大少年班開始

AI的3.0時代，世界模型

以人為中心，新的具身智能研究范式

敬原創(chuàng)，有鈦度，得贊賞

以下是趙何娟與王曉剛的對話內(nèi)容，略經(jīng)編輯：

AI之路，從中科大少年班開始

以人為中心，新的具身智能研究范式

敬原創(chuàng)，有鈦度，得贊賞