本篇文章我們繼續(xù)機(jī)器人系列,之前我們“機(jī)器人閉源模型”那篇文章分析了如今具身智能通用的VLA模型,拆解了特斯拉、Figure這些閉源巨頭的不同路線,以及他們?nèi)绾斡糜布蛿?shù)據(jù)優(yōu)勢(shì)構(gòu)筑護(hù)城河。而這篇文章,我們與全球頂尖具身智能實(shí)驗(yàn)室的研究人員深聊之后,來(lái)扒一扒開(kāi)源算法路線中的核心玩家和關(guān)鍵的技術(shù)領(lǐng)軍人物們。
同時(shí)我們來(lái)試圖回答這三個(gè)問(wèn)題:
第一:這些開(kāi)源模型分別走了什么技術(shù)路線,為什么能挑戰(zhàn)巨頭?
第二:開(kāi)源的動(dòng)機(jī)是什么?什么是“真”開(kāi)源,什么是“假”開(kāi)源?
第三:開(kāi)源模型生態(tài)是什么樣的?面對(duì)特斯拉這樣的對(duì)手,開(kāi)源社區(qū)拿什么打?
在開(kāi)源模型派別中,VLA模型仍然是主流。簡(jiǎn)單來(lái)說(shuō),就是讓機(jī)器人“看到”周圍環(huán)境,“聽(tīng)懂”你的指令,然后“做出”正確的動(dòng)作。
![]()
目前,開(kāi)源VLA模型大致可以分成四股力量:
1. 學(xué)院派:參數(shù)不大,但能以小博大,代表模型是OpenVLA和Octo。
2. 巨頭生態(tài)派:不只做模型,還布局整套工具鏈,代表是英偉達(dá)的GR00T N1和谷歌的Gemini Robotics。
3. 創(chuàng)業(yè)公司與中國(guó)力量:自變量、OpenMind、小米、螞蟻等等。
4. 技術(shù)極致派:追求極致精度和泛化能力,代表模型是Physical Intelligence的π?。
1.1:學(xué)院派的理想主義
OpenVLA的一戰(zhàn)成名,發(fā)生在2024年6月。這個(gè)只有70億參數(shù)的開(kāi)源模型,在29項(xiàng)機(jī)器人操作任務(wù)中,全面擊敗了“頂流”谷歌DeepMind的RT-2-X。RT-2-X有550億參數(shù),是OpenVLA的8倍大,背后站著整個(gè)谷歌的算力和數(shù)據(jù)資源。但結(jié)果是:OpenVLA的成功率比RT-2-X高出16.5%。
![]()
OpenVLA以小博大,憑的是一個(gè)很聰明的架構(gòu)設(shè)計(jì):兩個(gè)視覺(jué)編碼器加大語(yǔ)言模型。
對(duì)比谷歌RT-2-X,因?yàn)樗挥昧艘粋€(gè)視覺(jué)編碼器,你可以想象成一個(gè)超聰明但什么都自己做的人:能力很強(qiáng),但信息處理效率更低。
而OpenVLA用了兩個(gè)視覺(jué)編碼器,相當(dāng)于有“兩雙眼睛”。第一雙眼睛叫“DINOv2”,負(fù)責(zé)理解空間關(guān)系;第二雙眼睛叫“SigLIP”,專門理解語(yǔ)義和常識(shí)。然后再由當(dāng)時(shí)的開(kāi)源大語(yǔ)言模型Llama 2充當(dāng)“大腦”,把空間信息和語(yǔ)義信息融合起來(lái),處理指令和推理。
![]()
簡(jiǎn)單來(lái)說(shuō),OpenVLA像一個(gè)三人小團(tuán)隊(duì)協(xié)同作戰(zhàn),把兩類信息物理隔離、各自優(yōu)化,再統(tǒng)一決策,整體反而更強(qiáng)。大家大概可以理解成“三個(gè)臭皮匠,頂個(gè)諸葛亮”。這個(gè)架構(gòu)證明了:在具身智能領(lǐng)域,單純的“大”并不代表“聰明”。
OpenVLA還有一個(gè)數(shù)據(jù)集的優(yōu)勢(shì),叫做“Open X-Embodiment”,這也是開(kāi)源生態(tài)的一個(gè)非常厲害的優(yōu)勢(shì),后文會(huì)詳細(xì)展開(kāi)。
另外,OpenVLA還在動(dòng)作表示方式和訓(xùn)練策略上做了優(yōu)化。所以它這次對(duì)谷歌的勝利靠的是“數(shù)據(jù)+架構(gòu)+訓(xùn)練策略”的綜合結(jié)果。
而且,OpenVLA在勝出之后徹底開(kāi)源:代碼、模型權(quán)重、訓(xùn)練腳本全部公開(kāi)。這樣的開(kāi)放姿態(tài)讓整個(gè)行業(yè)都非常興奮,開(kāi)始各種后續(xù)的優(yōu)化、推理加速和微調(diào)。
![]()
這就是一個(gè)非常典型的開(kāi)源故事,能用創(chuàng)新方式去“以小搏大”,撬動(dòng)整個(gè)技術(shù)領(lǐng)域的后續(xù)工作。
我們?cè)僬f(shuō)說(shuō)另外一個(gè)比較典型的開(kāi)源路線“Octo”。如果說(shuō)OpenVLA代表“規(guī)?;_(kāi)源”,Octo就是“普及型開(kāi)源”。
我們知道,機(jī)器人算法的“泛化性”是個(gè)很大的挑戰(zhàn),之前的標(biāo)準(zhǔn)做法是需要針對(duì)特定機(jī)器人用特定數(shù)據(jù)集來(lái)訓(xùn)練策略,但你換一個(gè)機(jī)器人、換一個(gè)環(huán)境,就要全部重新來(lái)訓(xùn)。而一些開(kāi)源社區(qū)的大牛們就希望實(shí)現(xiàn)“通用機(jī)器人模型”,通過(guò)zero-shot這樣的技術(shù)將模型擴(kuò)展到廣泛的機(jī)器人和場(chǎng)景中。這樣的路徑被稱為“通用機(jī)器人策略”,Octo就是其中的代表。
![]()
Octo只有數(shù)千萬(wàn)參數(shù),比OpenVLA的規(guī)模更小。它是一個(gè)基于Transformer的擴(kuò)散策略模型,設(shè)計(jì)強(qiáng)調(diào)靈活性和可擴(kuò)展性,支持多種機(jī)器人平臺(tái)和傳感器配置,并能夠通過(guò)微調(diào)快速適應(yīng)新的觀察和動(dòng)作空間。這使得Octo可以廣泛應(yīng)用于不同的機(jī)器人學(xué)習(xí)場(chǎng)景。
Octo的定位不是最強(qiáng),而是人人可用,希望給開(kāi)源社區(qū)提供一個(gè)更輕量、可快速適配的通用策略基礎(chǔ)模型。
1.2 巨頭生態(tài)一條龍
2025年3月的GTC大會(huì)上,黃仁勛親自站臺(tái),發(fā)布了GR00T N1,號(hào)稱“世界首個(gè)開(kāi)放人形機(jī)器人基礎(chǔ)模型”。到2026年1月CES,已經(jīng)迭代到了N1.6版本。
![]()
GR00T N1采用雙系統(tǒng)架構(gòu):一個(gè)基于視覺(jué)語(yǔ)言模型的“System 2”負(fù)責(zé)慢思考,理解環(huán)境、解讀指令、做出規(guī)劃;一個(gè)基于擴(kuò)散Transformer的“System 1”負(fù)責(zé)快思考,以高頻率把規(guī)劃轉(zhuǎn)化為精確的關(guān)節(jié)動(dòng)作。兩個(gè)系統(tǒng)端到端聯(lián)合訓(xùn)練,緊密耦合。
22億參數(shù),模型權(quán)重和代碼都公開(kāi)了,不少頭部人形機(jī)器人公司都獲得了早期使用權(quán)。而且英偉達(dá)不只給了模型,還給了整套生態(tài):用Omniverse做數(shù)字孿生,用Isaac Sim生成合成訓(xùn)練數(shù)據(jù),用Cosmos生成視頻數(shù)據(jù),用Newton物理引擎做仿真,整個(gè)一條龍服務(wù)。
![]()
Google在機(jī)器人通用策略上也在持續(xù)布局。早期的RT-1開(kāi)源了代碼和數(shù)據(jù),但后續(xù)更強(qiáng)大的RT-2以及之后的RT系列就變成閉源模型了,并沒(méi)有對(duì)外開(kāi)放。
最近Google也在加速。2025年發(fā)布了Gemini Robotics系列模型,還挖來(lái)了前波士頓動(dòng)力首席技術(shù)官Aaron Saunders擔(dān)任硬件工程副總裁。DeepMind CEO Demis Hassabis把這個(gè)愿景稱為“機(jī)器人界的安卓”,做通用的機(jī)器人操作系統(tǒng),讓Gemini成為各種機(jī)器人的“大腦”。
![]()
在2026年CES上,波士頓動(dòng)力和Google DeepMind宣布了戰(zhàn)略合作,將Gemini Robotics模型整合到Atlas人形機(jī)器人中,聯(lián)合研究即將在兩家公司的實(shí)驗(yàn)室展開(kāi)。
Google從開(kāi)源到閉源、再到想要打造“機(jī)器人界的安卓”,賽道轉(zhuǎn)換有點(diǎn)快、野心有點(diǎn)大,但它絕對(duì)是機(jī)器人行業(yè)的最重要玩家,我們也拭目以待它的下一步動(dòng)向。
中國(guó)在開(kāi)源具身智能領(lǐng)域的參與正在加速,而且態(tài)勢(shì)在從單純的“跟跑”向“參與定義規(guī)則”轉(zhuǎn)變。
![]()
小米在2月12號(hào)剛發(fā)布的Xiaomi-Robotics-0,47億參數(shù),用MoT混合架構(gòu)——把“大腦”(視覺(jué)語(yǔ)言理解)和“小腦”(動(dòng)作執(zhí)行)分開(kāi),改善了VLA模型普遍存在的推理延遲問(wèn)題。模型開(kāi)源,在消費(fèi)級(jí)GPU上就能跑。
螞蟻集團(tuán)的LingBot-VLA走了另一條路,強(qiáng)調(diào)跨形態(tài)泛化。這個(gè)模型在9種不同的雙臂機(jī)器人上預(yù)訓(xùn)練了2萬(wàn)多小時(shí)的真機(jī)數(shù)據(jù),目標(biāo)是做到“一個(gè)大腦控制所有類型的機(jī)器人”,有點(diǎn)像我們之前提到的“通用機(jī)器人策略”路線。
![]()
清華AIR和上海AI實(shí)驗(yàn)室聯(lián)合推出的X-VLA,刷新了五大仿真基準(zhǔn),代碼、數(shù)據(jù)、權(quán)重全部公開(kāi),可以說(shuō)是學(xué)術(shù)界最徹底的開(kāi)源范本之一。
星海圖開(kāi)源了真機(jī)數(shù)據(jù)集,以及旗下最新的G0 Plus VLA模型;智元機(jī)器人的GO-1已經(jīng)部署到了真機(jī)上執(zhí)行任務(wù);星動(dòng)紀(jì)元的ERA-42也在探索自己的路線。
另外,自變量機(jī)器人是一家聚焦于通用機(jī)器人“大腦”研發(fā)的中國(guó)具身智能創(chuàng)業(yè)公司,CTO王昊在之前與硅谷101播客談到了開(kāi)源的初衷。
![]()
在硅谷的初創(chuàng)公司中,我們對(duì)話了由斯坦福教授Jan Liphardt創(chuàng)立的OpenMind。他說(shuō),希望為不同廠商的人形機(jī)器人構(gòu)建一個(gè)通用的軟件層。OpenMind推出的OM1平臺(tái)強(qiáng)調(diào)開(kāi)源與跨硬件兼容,希望打破當(dāng)前機(jī)器人系統(tǒng)各自封閉的局面,讓不同設(shè)備可以共享能力與生態(tài)。他們也從一開(kāi)始就以開(kāi)源為核心理念來(lái)打造具身智能平臺(tái),代表了一種純粹的開(kāi)源路線。
![]()
目前開(kāi)源界最受矚目的模型π?,是Physical Intelligence推出的VLA模型,屬于數(shù)十億參數(shù)級(jí)別。π?代表的是另一條思路:把“連續(xù)控制”做到極致。
在動(dòng)作生成部分,π?使用了flow matching(流匹配)思路,直接生成連續(xù)的關(guān)節(jié)軌跡。這意味著模型輸出的是一段平滑的控制信號(hào)。Physical Intelligence研究員、也是π?、π?.?論文作者柯麗一鳴在接受硅谷101播客的時(shí)候就告訴我們,π?控制頻率約為50Hz,也就是每秒更新約50次動(dòng)作。這種高頻連續(xù)控制帶來(lái)了一個(gè)質(zhì)的飛躍:π?能做折紙、玩撲克牌這種需要極高精度的任務(wù)——而這些是OpenVLA和Octo都很難勝任的。
![]()
從設(shè)計(jì)理念上看,π?更強(qiáng)調(diào)“控制質(zhì)量”和“動(dòng)作連續(xù)性”。相比把動(dòng)作當(dāng)作語(yǔ)言token預(yù)測(cè),它更接近傳統(tǒng)控制系統(tǒng)的形式,只不過(guò)控制信號(hào)由大模型生成。
這一選擇帶來(lái)的好處是,在折疊衣物、抓取柔性物體、操作細(xì)小零件等任務(wù)中,動(dòng)作更加流暢,減少了抖動(dòng)和遲滯。
![]()
同時(shí),π?的代碼與權(quán)重通過(guò)OpenPI項(xiàng)目對(duì)外開(kāi)放,使研究社區(qū)可以在它的基礎(chǔ)上復(fù)現(xiàn)與擴(kuò)展。這種做法在商業(yè)公司中并不常見(jiàn),也成為開(kāi)源陣營(yíng)的重要力量。
更令人關(guān)注的是π?的迭代節(jié)奏。初版論文發(fā)布后不久,Physical Intelligence通過(guò)OpenPI項(xiàng)目公開(kāi)了模型權(quán)重與代碼。隨后數(shù)月內(nèi),團(tuán)隊(duì)陸續(xù)發(fā)布更新版本,持續(xù)改進(jìn)泛化能力與控制穩(wěn)定性。隨后引入強(qiáng)化學(xué)習(xí)機(jī)制以進(jìn)一步優(yōu)化策略表現(xiàn),同時(shí)強(qiáng)調(diào)在開(kāi)放環(huán)境中的適應(yīng)能力。
在機(jī)器人領(lǐng)域,這種快速迭代與持續(xù)公開(kāi)更新并不常見(jiàn),也成為π?受到關(guān)注的重要原因之一。
不同陣營(yíng)背后的主導(dǎo)核心人物也并非對(duì)立關(guān)系,他們的關(guān)系緊密且錯(cuò)綜復(fù)雜。而更有意思的是,曾經(jīng)主導(dǎo)閉源模型的多位頂級(jí)科學(xué)家,后來(lái)成為了機(jī)器人開(kāi)源社區(qū)的領(lǐng)導(dǎo)者。他們又被稱為機(jī)器人界的“復(fù)仇者聯(lián)盟”。
![]()
OpenVLA來(lái)自斯坦福和伯克利的聯(lián)合團(tuán)隊(duì),核心人物是這個(gè)領(lǐng)域的明星人物Chelsea Finn。
她MIT本科畢業(yè),又在伯克利拿到博士學(xué)位,師從機(jī)器人學(xué)習(xí)教父級(jí)人物Pieter Abbeel和Sergey Levine。2019年她加入斯坦福任教,隨后一路拿獎(jiǎng)到手軟。她同時(shí)還是Physical Intelligence的聯(lián)合創(chuàng)始人,橫跨學(xué)術(shù)和商業(yè)兩個(gè)世界??梢哉f(shuō),Chelsea Finn一人就串起了開(kāi)源和閉源陣營(yíng)的半壁江山。
![]()
在Finn教授以外,我們可以看到OpenVLA的作者名單上除了斯坦福和伯克利的一眾研究人員,還有豐田研究院、Google DeepMind、Physical Intelligence、MIT的科學(xué)家。這說(shuō)明,OpenVLA并不只是一個(gè)閉門造車的實(shí)驗(yàn)室產(chǎn)物。
Octo和OpenVLA可以說(shuō)是“同門師兄弟”,同樣來(lái)自伯克利,由Chelsea Finn和Sergey Levine的團(tuán)隊(duì)聯(lián)合出品。
![]()
Sergey Levine是機(jī)器人強(qiáng)化學(xué)習(xí)領(lǐng)域公認(rèn)的開(kāi)創(chuàng)者之一,他是伯克利教授、Google Brain前研究科學(xué)家,后來(lái)也成了Physical Intelligence的聯(lián)合創(chuàng)始人和首席科學(xué)家,他跟Finn是博導(dǎo)和博士生的關(guān)系。
有趣的是,Levine和Finn在Google時(shí)期參與了RT-1、RT-2這些閉源項(xiàng)目,離開(kāi)后又推動(dòng)了Octo和OpenVLA這些開(kāi)源工作。這個(gè)領(lǐng)域中的同一批人,可以說(shuō)既造了閉源的堡壘,也打開(kāi)了開(kāi)源的大門。
PI的創(chuàng)始團(tuán)隊(duì)堪稱是機(jī)器人AI領(lǐng)域的“復(fù)仇者聯(lián)盟”,聯(lián)合創(chuàng)始人們各個(gè)都是來(lái)自學(xué)術(shù)界或者科技公司的大佬。
其中,Karol Hausman是Google DeepMind機(jī)器人方向的資深研究科學(xué)家,也是RT-1、RT-2和SayCan等標(biāo)志性機(jī)器人大模型工作的核心作者之一。
Brian Ichter同樣來(lái)自Google Brain,深度參與了這些項(xiàng)目的研發(fā),是那一代機(jī)器人基礎(chǔ)模型的重要推動(dòng)者。Sergey Levine長(zhǎng)期與Google Brain合作,在機(jī)器人學(xué)習(xí)和強(qiáng)化學(xué)習(xí)領(lǐng)域處于世界前沿,是這條技術(shù)路線的關(guān)鍵思想源頭之一。
我們前面提到好幾次的Chelsea Finn也是PI的聯(lián)合創(chuàng)始人之一,她也參與了RT系列研究,在機(jī)器人泛化與自監(jiān)督學(xué)習(xí)方向做出了重要貢獻(xiàn)。
![]()
2024年初,這幾位參與Google機(jī)器人基礎(chǔ)模型路線的核心成員陸續(xù)離開(kāi)Google,并共同創(chuàng)辦了Physical Intelligence(PI)。此外,團(tuán)隊(duì)成員還包括前Stripe高管兼知名投資人Lachy Groom,以及前Anduril工程副總裁Adnan Esmail。
說(shuō)白了,是閉源陣營(yíng)里最懂技術(shù)的一幫人,決定跳出來(lái)?yè)Q一種方式做事。
但π?的身份很“糾結(jié)”,它來(lái)自一家剛成立、融資就超過(guò)10億美元、估值56億美元的商業(yè)公司。這樣一家公司,為什么要把最核心的模型開(kāi)源?這就要說(shuō)到我們的第二個(gè)核心問(wèn)題:“真”開(kāi)源和“假”開(kāi)源。
Physical Intelligence2024年成立,投資人包括Jeff Bezos、OpenAI、Sequoia Capital、Khosla Ventures。2024年11月融了4億美元,2025年11月又融了6億美元,估值達(dá)到56億美元。
![]()
一家這么有錢的公司,為什么要把核心模型免費(fèi)放出來(lái)?答案是:這可能是Physical Intelligence最有“心機(jī)”的商業(yè)策略。
第一,開(kāi)源建立標(biāo)準(zhǔn)。當(dāng)全世界的機(jī)器人開(kāi)發(fā)者,無(wú)論是學(xué)術(shù)實(shí)驗(yàn)室、創(chuàng)業(yè)公司或者工業(yè)客戶,都在π?的框架上構(gòu)建應(yīng)用,PI就成了事實(shí)標(biāo)準(zhǔn)的定義者。別人的每一次使用,都在鞏固π?的生態(tài)地位。
第二,開(kāi)源吸引人才。最優(yōu)秀的研究者想去能發(fā)論文、能影響行業(yè)的地方,PI開(kāi)源π?之后,他們的openpi GitHub倉(cāng)庫(kù)就成了機(jī)器人領(lǐng)域最熱的項(xiàng)目之一,這比任何招聘廣告都有效。
![]()
第三,開(kāi)源加速數(shù)據(jù)飛輪。社區(qū)使用你的模型,發(fā)現(xiàn)問(wèn)題、做出改進(jìn)、貢獻(xiàn)數(shù)據(jù),這些都回流給PI,讓下一代模型更強(qiáng)。
但要注意,π?不是100%開(kāi)源。模型權(quán)重和推理代碼公開(kāi)了,但完整的訓(xùn)練流程和PI內(nèi)部采集的數(shù)萬(wàn)小時(shí)專有數(shù)據(jù)沒(méi)有公開(kāi)。
這是一種精心設(shè)計(jì)的“開(kāi)源引流、閉源變現(xiàn)”策略,也就是用開(kāi)源的模型吸引開(kāi)發(fā)者進(jìn)入你的生態(tài),用閉源的數(shù)據(jù)和訓(xùn)練能力保持競(jìng)爭(zhēng)優(yōu)勢(shì)。也就是說(shuō)社區(qū)可以用它的模型,但想要最好的版本,還得來(lái)找它。
我們前面提到,英偉達(dá)不只給了模型GR00T N1,還給了整套生態(tài),包括生成合成訓(xùn)練數(shù)據(jù)的工具、物理引擎等等。聽(tīng)起來(lái)非常“開(kāi)放”,但為什么有人說(shuō)GR00T N1是“偽開(kāi)源”?
因?yàn)槟P碗m然開(kāi)放了,整個(gè)流程都在英偉達(dá)的生態(tài)里:訓(xùn)練深度綁定英偉達(dá)的硬件生態(tài),用H100集群訓(xùn)練,在Omniverse平臺(tái)上做仿真,用Isaac Sim生成合成數(shù)據(jù),最后部署在Jetson Thor芯片上。
![]()
對(duì)比純粹的社區(qū)開(kāi)源,比如OpenVLA和Octo沒(méi)有任何硬件綁定,沒(méi)有生態(tài)鎖定,在任何GPU上都能跑。這也許是“開(kāi)放”和“開(kāi)源”之間的根本區(qū)別。
但行業(yè)如此早期,也許根本沒(méi)有什么選擇是正確或錯(cuò)誤的。學(xué)術(shù)開(kāi)源追求的是知識(shí)共享和科學(xué)可復(fù)現(xiàn)性,商業(yè)開(kāi)源追求的是生態(tài)控制和市場(chǎng)標(biāo)準(zhǔn),而戰(zhàn)略開(kāi)放追求的是平臺(tái)鎖定和硬件銷售。
特斯拉有自己的工廠、自己的機(jī)器人、自己的數(shù)據(jù)閉環(huán)。英偉達(dá)有全世界最強(qiáng)的算力。谷歌匯聚了最頂尖的人才。開(kāi)源社區(qū)一幫大學(xué)教授和創(chuàng)業(yè)團(tuán)隊(duì),憑什么能跟這些巨頭掰手腕?
答案是:生態(tài)。單看任何一個(gè)開(kāi)源模型,都不如閉源巨頭。但模型、數(shù)據(jù)、工具三層生態(tài)疊加,形成的“組合拳”力量,就讓故事不一樣了。
![]()
也就是說(shuō),閉源看似安全,但沒(méi)有社區(qū)幫你測(cè)試和改進(jìn),反而可能變成一個(gè)人悶頭造車。
目前開(kāi)源生態(tài)的第一個(gè)優(yōu)勢(shì)就是數(shù)據(jù)集。我們前面提到,OpenVLA橫空出世,就是用了Open X-Embodiment的數(shù)據(jù)集。
![]()
Open X-Embodiment是開(kāi)源陣營(yíng)最寶貴的優(yōu)勢(shì):一個(gè)跨平臺(tái)、跨實(shí)驗(yàn)室的機(jī)器人數(shù)據(jù)公共資源,它的規(guī)模和組織方式在機(jī)器人領(lǐng)域前所未有:超過(guò)20個(gè)研究機(jī)構(gòu)共同貢獻(xiàn),包括斯坦福、伯克利、MIT、CMU、Google DeepMind等頂級(jí)實(shí)驗(yàn)室;22種不同的機(jī)器人本體,從單臂機(jī)械臂到雙臂協(xié)作、從桌面操作到移動(dòng)導(dǎo)航再到人形機(jī)器人;超過(guò)100萬(wàn)條真實(shí)軌跡,覆蓋527種技能。
特斯拉的數(shù)據(jù)可能更大,但全是Optimus一種機(jī)器人在特斯拉環(huán)境里的數(shù)據(jù)。Figure的數(shù)據(jù)也只有Figure 01和02的操作。而Open X-Embodiment是幾十種不同形態(tài)的機(jī)器人,在廚房、實(shí)驗(yàn)室、倉(cāng)庫(kù)、辦公室等完全不同的場(chǎng)景里采集的數(shù)據(jù)。
為什么數(shù)據(jù)的多樣性比數(shù)據(jù)量更重要?
![]()
用訓(xùn)練RT-X模型的實(shí)驗(yàn)結(jié)果來(lái)說(shuō)明:RT-1-X在小數(shù)據(jù)域的表現(xiàn)比單獨(dú)訓(xùn)練的模型高了50%,RT-2-X甚至涌現(xiàn)出了原模型沒(méi)有的空間推理能力,是RT-2的3倍,能理解“on”和“near”這種細(xì)微的語(yǔ)言差異,這意味著它開(kāi)始理解語(yǔ)言中的空間語(yǔ)義,知道“on”意味著物體之間要建立接觸和支撐關(guān)系,而“near”只是空間鄰近。
除此之外,它還能執(zhí)行訓(xùn)練時(shí)從未見(jiàn)過(guò)的技能組合。這直接證明了:只要數(shù)據(jù)夠多樣,就算模型不是最大的,性能也能有大幅提高。
更值得一提的是數(shù)據(jù)格式的標(biāo)準(zhǔn)化貢獻(xiàn)。以前最頭疼的問(wèn)題是每個(gè)實(shí)驗(yàn)室的數(shù)據(jù)格式都不一樣:伯克利是一種格式,斯坦福是另一種,MIT又是第三種。想用多個(gè)數(shù)據(jù)集一起訓(xùn)練?先花幾個(gè)月寫轉(zhuǎn)換代碼。
![]()
而Open X-Embodiment定義了統(tǒng)一的數(shù)據(jù)格式,涵蓋視覺(jué)觀察、本體感知、動(dòng)作序列和語(yǔ)言注釋,所以在產(chǎn)業(yè)中有了一個(gè)統(tǒng)一的標(biāo)準(zhǔn),這個(gè)很重要。
再說(shuō)一句數(shù)據(jù)的問(wèn)題,因?yàn)檫@是目前機(jī)器人領(lǐng)域最大的挑戰(zhàn),我們的嘉賓之間分歧也很大,一派認(rèn)為大語(yǔ)言模型已經(jīng)包含了足夠的物理常識(shí),只需少量機(jī)器人數(shù)據(jù)微調(diào),而另外一派認(rèn)為物理世界的細(xì)節(jié)必須用真實(shí)的機(jī)器人數(shù)據(jù)來(lái)學(xué)習(xí),互聯(lián)網(wǎng)視頻遠(yuǎn)遠(yuǎn)不夠。這里面的門道和技術(shù)可以挖得蠻深,不同的任務(wù)、不同的精度要求,需要不同的數(shù)據(jù)策略。所以,關(guān)于數(shù)據(jù),我們之后還會(huì)單獨(dú)做一期機(jī)器人系列的深度內(nèi)容。
光有數(shù)據(jù)不夠,還需要工具把數(shù)據(jù)變成可以訓(xùn)練的模型,這就是LeRobot和Genesis的角色。
![]()
LeRobot是Hugging Face從特斯拉挖來(lái)的工程師Remi Cadene帶隊(duì)打造的開(kāi)源項(xiàng)目。Cadene之前在特斯拉參與過(guò)Autopilot和Optimus人形機(jī)器人項(xiàng)目。他帶著這些經(jīng)驗(yàn)來(lái)到Hugging Face,目標(biāo)是“讓訓(xùn)練機(jī)器人像訓(xùn)練語(yǔ)言模型一樣簡(jiǎn)單”。
LeRobot做了三件關(guān)鍵的事:
1. 定義了LeRobotDataset統(tǒng)一數(shù)據(jù)格式。
2. 一鍵集成了多種主流策略模型,你不需要去讀論文改代碼,直接調(diào)用就行。
3. 打通了數(shù)據(jù)采集、模型訓(xùn)練、到真實(shí)機(jī)器人部署的全流程,以前這三步可能需要三套不同的工具鏈。
LeRobot的GitHub已經(jīng)超過(guò)2萬(wàn)星,成為了開(kāi)源機(jī)器人訓(xùn)練的標(biāo)準(zhǔn)之一。但Hugging Face的野心不止于軟件。
![]()
2025年他們收購(gòu)了法國(guó)的Pollen Robotics,推出了7萬(wàn)美元的Reachy 2開(kāi)源人形機(jī)器人,已經(jīng)在康奈爾和CMU等頂尖實(shí)驗(yàn)室使用,還推出了250美元的Reachy Mini桌面機(jī)器人。更早之前,他們和The Robot Studio合作推出了SO-100機(jī)械臂,成本只要100美元,任何人都可以在家3D打印DIY一個(gè)。
由此可見(jiàn),Hugging Face正在把“硬件加軟件加社區(qū)”打包,構(gòu)建一個(gè)完整的開(kāi)源機(jī)器人生態(tài)。
而2024年12月發(fā)布的Genesis則嘗試優(yōu)化仿真訓(xùn)練的問(wèn)題。這是由CMU卡內(nèi)基梅隆大學(xué)主導(dǎo)、聯(lián)合MIT、斯坦福、英偉達(dá)等20多個(gè)研究實(shí)驗(yàn)室共同參與的開(kāi)源項(xiàng)目,只需在仿真中運(yùn)行數(shù)小時(shí),就能生成相當(dāng)于現(xiàn)實(shí)世界中多年訓(xùn)練的樣本數(shù)據(jù),大幅降低了訓(xùn)練時(shí)間和硬件成本。
![]()
比如說(shuō),Genesis號(hào)稱在一張RTX 4090顯卡,模擬一個(gè)Franka機(jī)械臂的速度是每秒4300萬(wàn)幀。這是實(shí)時(shí)速度的43萬(wàn)倍。在Genesis里訓(xùn)練1小時(shí),相當(dāng)于在真實(shí)世界訓(xùn)練超過(guò)49年。
這帶來(lái)的改變是,以前只有大公司能負(fù)擔(dān)的大規(guī)模仿真訓(xùn)練,現(xiàn)在一個(gè)研究生在家用一張消費(fèi)級(jí)顯卡就能做。
值得注意的是,英偉達(dá)也和Google DeepMind、Disney Research聯(lián)合開(kāi)發(fā)了一個(gè)開(kāi)源物理引擎Newton,跟Genesis形成了直接競(jìng)爭(zhēng),所以仿真工具領(lǐng)域本身也是一個(gè)充滿競(jìng)爭(zhēng)的領(lǐng)域。
![]()
但無(wú)論如何,一部分勛章應(yīng)該要給到Hugging Face,LeRobot管真實(shí)世界,學(xué)界主導(dǎo)的Genesis管虛擬世界,兩個(gè)工具一起,把“訓(xùn)練機(jī)器人”的門檻從百萬(wàn)美元降到了幾百美元。
總結(jié)一下,模型、數(shù)據(jù)、工具,這三層疊加,就是開(kāi)源陣營(yíng)的“組合拳”。
單看任何一層,開(kāi)源都不如閉源巨頭:論人才密度和算力,不如谷歌;論數(shù)據(jù)量,不如特斯拉;論工具鏈的完整度,不如英偉達(dá)。但三層聯(lián)動(dòng)產(chǎn)生的化學(xué)反應(yīng),釋放出了巨大的能量。
![]()
一個(gè)研究者可以用Open X-Embodiment的數(shù)據(jù),在LeRobot框架上訓(xùn)練OpenVLA,用Genesis做仿真驗(yàn)證,然后部署到100美元的SO-100機(jī)械臂上。整個(gè)流程全部開(kāi)源,全部免費(fèi),全部可復(fù)現(xiàn)。
這里有一個(gè)很關(guān)鍵的觀察:在大語(yǔ)言模型領(lǐng)域,開(kāi)源是追趕者。OpenAI、Anthropic和Google先行,開(kāi)源后追,晚一到兩代。但在機(jī)器人領(lǐng)域,開(kāi)源和閉源幾乎是同時(shí)起跑的。
OpenVLA在2024年6月就擊敗了RT-2-X,這個(gè)時(shí)間差的原因很簡(jiǎn)單:機(jī)器人還在非常早期的階段,沒(méi)有任何一家公司建立了壓倒性的數(shù)據(jù)或算法優(yōu)勢(shì)。這是開(kāi)源難得的“公平競(jìng)賽”窗口,如果錯(cuò)過(guò)這個(gè)窗口,等閉源公司積累了足夠的數(shù)據(jù)飛輪,開(kāi)源可能就很難追上了。
而且,開(kāi)源和閉源之間的邊界遠(yuǎn)比想象的更模糊。
RT-2-X是谷歌的“閉源”模型,但它的訓(xùn)練數(shù)據(jù)有一部分來(lái)自O(shè)pen X-Embodiment這個(gè)開(kāi)源數(shù)據(jù)集。Chelsea Finn同時(shí)是Octo這個(gè)開(kāi)源項(xiàng)目的核心作者,也是RT系列閉源工作的推動(dòng)者,還是PI的聯(lián)合創(chuàng)始人。而英偉達(dá)的GR00T N1介于開(kāi)源和閉源之間。所以,這場(chǎng)競(jìng)爭(zhēng)不是兩個(gè)陣營(yíng)的對(duì)決,而是一個(gè)光譜上的多方博弈。
![]()
而說(shuō)到底,開(kāi)源vs閉源,表面是技術(shù)路線之爭(zhēng),本質(zhì)是生態(tài)之爭(zhēng),爭(zhēng)的還是誰(shuí)來(lái)定義機(jī)器人行業(yè)的基礎(chǔ)設(shè)施層。
但對(duì)于生態(tài)來(lái)說(shuō),必須要直面一個(gè)現(xiàn)實(shí):開(kāi)源面臨的挑戰(zhàn)依然很大。
首先是算力門檻,雖然有Octo這樣的輕量模型,但訓(xùn)練一個(gè)頂級(jí)開(kāi)源模型仍然需要不小的投入。OpenVLA用了64張A100跑了15天,這跟特斯拉、谷歌的算力相比是小巫見(jiàn)大巫,但對(duì)普通研究者來(lái)說(shuō)仍然是一筆不小的開(kāi)支。
其次是數(shù)據(jù)質(zhì)量,Open X-Embodiment雖然大,但不同來(lái)源的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)參差不齊,有的實(shí)驗(yàn)室標(biāo)注非常細(xì)致,有的比較粗糙。特斯拉的數(shù)據(jù)可能在多樣性上不如開(kāi)源,但在一致性上更強(qiáng),畢竟都是同一套系統(tǒng)采集的。
第三是工程化差距,開(kāi)源模型在論文里表現(xiàn)出色,但從demo到產(chǎn)品之間有一道巨大的鴻溝。閉源公司有完整的工程團(tuán)隊(duì)做優(yōu)化、做測(cè)試、做售后,開(kāi)源社區(qū)更擅長(zhǎng)創(chuàng)新探索。但把一個(gè)模型打磨成穩(wěn)定可靠的商業(yè)產(chǎn)品,往往需要閉源公司來(lái)完成。
第四是安全問(wèn)題,如果人人都能訓(xùn)練機(jī)器人,如何防止被用于危險(xiǎn)用途?物理世界的AI比虛擬世界的大語(yǔ)言模型風(fēng)險(xiǎn)更高,聊天機(jī)器人說(shuō)錯(cuò)話最多是尷尬,但物理機(jī)器人做錯(cuò)動(dòng)作可能造成傷害。OpenMind的Jan Liphardt提出了一個(gè)大膽的方案:
![]()
用區(qū)塊鏈來(lái)約束機(jī)器人行為,這個(gè)想法很前衛(wèi),也確實(shí)在業(yè)界也引發(fā)了一些爭(zhēng)議。但它至少說(shuō)明,開(kāi)源社區(qū)正在認(rèn)真思考安全問(wèn)題。
開(kāi)源能發(fā)展到什么程度?自變量CTO王昊給出了一個(gè)時(shí)間線預(yù)測(cè):
GPT-3的水平意味著機(jī)器人會(huì)從“能完成簡(jiǎn)單指令”跳躍到“能理解復(fù)雜意圖并靈活執(zhí)行”,這將是一個(gè)分水嶺。
![]()
在LLM時(shí)代,我們見(jiàn)證了OpenAI從“開(kāi)放”走向封閉。一個(gè)以“Open”命名的公司,變成了一家市值千億的閉源商業(yè)帝國(guó)。在機(jī)器人時(shí)代,同樣的故事可能重演,但也可能不會(huì)。因?yàn)闄C(jī)器人領(lǐng)域有一個(gè)大語(yǔ)言模型時(shí)代沒(méi)有的東西:從一開(kāi)始就足夠強(qiáng)大的開(kāi)源生態(tài)。
最后,OpenMind創(chuàng)始人Jan Liphardt從一個(gè)父親的角度解釋了為什么他支持開(kāi)源,這個(gè)回答還蠻有人味兒的:
這就是具身智能開(kāi)源模型生態(tài)的現(xiàn)狀。這篇文章詳細(xì)聊了四個(gè)派系:學(xué)院派,巨頭,包括了中國(guó)公司在內(nèi)的創(chuàng)業(yè)派,以及單獨(dú)拎出來(lái)講的Physical Intelligence。大家出于不同的目的、在不同程度上參與了開(kāi)源生態(tài)的搭建,確定的是,這樣的生態(tài)正在幫助我們進(jìn)一步突破技術(shù)和創(chuàng)新的邊界。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論