黄片A级在线观看,成人无码免播放器在线视频,中国黄色三级录像片

本篇文章我們繼續(xù)機(jī)器人系列，之前我們“機(jī)器人閉源模型”那篇文章分析了如今具身智能通用的VLA模型，拆解了特斯拉、Figure這些閉源巨頭的不同路線，以及他們?nèi)绾斡糜布蛿?shù)據(jù)優(yōu)勢(shì)構(gòu)筑護(hù)城河。而這篇文章，我們與全球頂尖具身智能實(shí)驗(yàn)室的研究人員深聊之后，來(lái)扒一扒開(kāi)源算法路線中的核心玩家和關(guān)鍵的技術(shù)領(lǐng)軍人物們。

第一：這些開(kāi)源模型分別走了什么技術(shù)路線，為什么能挑戰(zhàn)巨頭？

第二：開(kāi)源的動(dòng)機(jī)是什么？什么是“真”開(kāi)源，什么是“假”開(kāi)源？

第三：開(kāi)源模型生態(tài)是什么樣的？面對(duì)特斯拉這樣的對(duì)手，開(kāi)源社區(qū)拿什么打？

01 開(kāi)源模型全景，誰(shuí)在做，走什么路？

在開(kāi)源模型派別中，VLA模型仍然是主流。簡(jiǎn)單來(lái)說(shuō)，就是讓機(jī)器人“看到”周圍環(huán)境，“聽(tīng)懂”你的指令，然后“做出”正確的動(dòng)作。

1. 學(xué)院派：參數(shù)不大，但能以小博大，代表模型是OpenVLA和Octo。

2. 巨頭生態(tài)派：不只做模型，還布局整套工具鏈，代表是英偉達(dá)的GR00T N1和谷歌的Gemini Robotics。

3. 創(chuàng)業(yè)公司與中國(guó)力量：自變量、OpenMind、小米、螞蟻等等。

4. 技術(shù)極致派：追求極致精度和泛化能力，代表模型是Physical Intelligence的π?。

OpenVLA的一戰(zhàn)成名，發(fā)生在2024年6月。這個(gè)只有70億參數(shù)的開(kāi)源模型，在29項(xiàng)機(jī)器人操作任務(wù)中，全面擊敗了“頂流”谷歌DeepMind的RT-2-X。RT-2-X有550億參數(shù)，是OpenVLA的8倍大，背后站著整個(gè)谷歌的算力和數(shù)據(jù)資源。但結(jié)果是：OpenVLA的成功率比RT-2-X高出16.5%。

OpenVLA以小博大，憑的是一個(gè)很聰明的架構(gòu)設(shè)計(jì)：兩個(gè)視覺(jué)編碼器加大語(yǔ)言模型。

對(duì)比谷歌RT-2-X，因?yàn)樗挥昧艘粋€(gè)視覺(jué)編碼器，你可以想象成一個(gè)超聰明但什么都自己做的人：能力很強(qiáng)，但信息處理效率更低。

而OpenVLA用了兩個(gè)視覺(jué)編碼器，相當(dāng)于有“兩雙眼睛”。第一雙眼睛叫“DINOv2”，負(fù)責(zé)理解空間關(guān)系；第二雙眼睛叫“SigLIP”，專門理解語(yǔ)義和常識(shí)。然后再由當(dāng)時(shí)的開(kāi)源大語(yǔ)言模型Llama 2充當(dāng)“大腦”，把空間信息和語(yǔ)義信息融合起來(lái)，處理指令和推理。

簡(jiǎn)單來(lái)說(shuō)，OpenVLA像一個(gè)三人小團(tuán)隊(duì)協(xié)同作戰(zhàn)，把兩類信息物理隔離、各自優(yōu)化，再統(tǒng)一決策，整體反而更強(qiáng)。大家大概可以理解成“三個(gè)臭皮匠，頂個(gè)諸葛亮”。這個(gè)架構(gòu)證明了：在具身智能領(lǐng)域，單純的“大”并不代表“聰明”。

OpenVLA還有一個(gè)數(shù)據(jù)集的優(yōu)勢(shì)，叫做“Open X-Embodiment”，這也是開(kāi)源生態(tài)的一個(gè)非常厲害的優(yōu)勢(shì)，后文會(huì)詳細(xì)展開(kāi)。

另外，OpenVLA還在動(dòng)作表示方式和訓(xùn)練策略上做了優(yōu)化。所以它這次對(duì)谷歌的勝利靠的是“數(shù)據(jù)+架構(gòu)+訓(xùn)練策略”的綜合結(jié)果。

而且，OpenVLA在勝出之后徹底開(kāi)源：代碼、模型權(quán)重、訓(xùn)練腳本全部公開(kāi)。這樣的開(kāi)放姿態(tài)讓整個(gè)行業(yè)都非常興奮，開(kāi)始各種后續(xù)的優(yōu)化、推理加速和微調(diào)。

這就是一個(gè)非常典型的開(kāi)源故事，能用創(chuàng)新方式去“以小搏大”，撬動(dòng)整個(gè)技術(shù)領(lǐng)域的后續(xù)工作。

我們?cè)僬f(shuō)說(shuō)另外一個(gè)比較典型的開(kāi)源路線“Octo”。如果說(shuō)OpenVLA代表“規(guī)?；_(kāi)源”，Octo就是“普及型開(kāi)源”。

我們知道，機(jī)器人算法的“泛化性”是個(gè)很大的挑戰(zhàn)，之前的標(biāo)準(zhǔn)做法是需要針對(duì)特定機(jī)器人用特定數(shù)據(jù)集來(lái)訓(xùn)練策略，但你換一個(gè)機(jī)器人、換一個(gè)環(huán)境，就要全部重新來(lái)訓(xùn)。而一些開(kāi)源社區(qū)的大牛們就希望實(shí)現(xiàn)“通用機(jī)器人模型”，通過(guò)zero-shot這樣的技術(shù)將模型擴(kuò)展到廣泛的機(jī)器人和場(chǎng)景中。這樣的路徑被稱為“通用機(jī)器人策略”，Octo就是其中的代表。

Octo只有數(shù)千萬(wàn)參數(shù)，比OpenVLA的規(guī)模更小。它是一個(gè)基于Transformer的擴(kuò)散策略模型，設(shè)計(jì)強(qiáng)調(diào)靈活性和可擴(kuò)展性，支持多種機(jī)器人平臺(tái)和傳感器配置，并能夠通過(guò)微調(diào)快速適應(yīng)新的觀察和動(dòng)作空間。這使得Octo可以廣泛應(yīng)用于不同的機(jī)器人學(xué)習(xí)場(chǎng)景。

Octo的定位不是最強(qiáng)，而是人人可用，希望給開(kāi)源社區(qū)提供一個(gè)更輕量、可快速適配的通用策略基礎(chǔ)模型。

2025年3月的GTC大會(huì)上，黃仁勛親自站臺(tái)，發(fā)布了GR00T N1，號(hào)稱“世界首個(gè)開(kāi)放人形機(jī)器人基礎(chǔ)模型”。到2026年1月CES，已經(jīng)迭代到了N1.6版本。

GR00T N1采用雙系統(tǒng)架構(gòu)：一個(gè)基于視覺(jué)語(yǔ)言模型的“System 2”負(fù)責(zé)慢思考，理解環(huán)境、解讀指令、做出規(guī)劃；一個(gè)基于擴(kuò)散Transformer的“System 1”負(fù)責(zé)快思考，以高頻率把規(guī)劃轉(zhuǎn)化為精確的關(guān)節(jié)動(dòng)作。兩個(gè)系統(tǒng)端到端聯(lián)合訓(xùn)練，緊密耦合。

22億參數(shù)，模型權(quán)重和代碼都公開(kāi)了，不少頭部人形機(jī)器人公司都獲得了早期使用權(quán)。而且英偉達(dá)不只給了模型，還給了整套生態(tài)：用Omniverse做數(shù)字孿生，用Isaac Sim生成合成訓(xùn)練數(shù)據(jù)，用Cosmos生成視頻數(shù)據(jù)，用Newton物理引擎做仿真，整個(gè)一條龍服務(wù)。

Google在機(jī)器人通用策略上也在持續(xù)布局。早期的RT-1開(kāi)源了代碼和數(shù)據(jù)，但后續(xù)更強(qiáng)大的RT-2以及之后的RT系列就變成閉源模型了，并沒(méi)有對(duì)外開(kāi)放。

最近Google也在加速。2025年發(fā)布了Gemini Robotics系列模型，還挖來(lái)了前波士頓動(dòng)力首席技術(shù)官Aaron Saunders擔(dān)任硬件工程副總裁。DeepMind CEO Demis Hassabis把這個(gè)愿景稱為“機(jī)器人界的安卓”，做通用的機(jī)器人操作系統(tǒng)，讓Gemini成為各種機(jī)器人的“大腦”。

在2026年CES上，波士頓動(dòng)力和Google DeepMind宣布了戰(zhàn)略合作，將Gemini Robotics模型整合到Atlas人形機(jī)器人中，聯(lián)合研究即將在兩家公司的實(shí)驗(yàn)室展開(kāi)。

Google從開(kāi)源到閉源、再到想要打造“機(jī)器人界的安卓”，賽道轉(zhuǎn)換有點(diǎn)快、野心有點(diǎn)大，但它絕對(duì)是機(jī)器人行業(yè)的最重要玩家，我們也拭目以待它的下一步動(dòng)向。

中國(guó)在開(kāi)源具身智能領(lǐng)域的參與正在加速，而且態(tài)勢(shì)在從單純的“跟跑”向“參與定義規(guī)則”轉(zhuǎn)變。

小米在2月12號(hào)剛發(fā)布的Xiaomi-Robotics-0，47億參數(shù)，用MoT混合架構(gòu)——把“大腦”（視覺(jué)語(yǔ)言理解）和“小腦”（動(dòng)作執(zhí)行）分開(kāi)，改善了VLA模型普遍存在的推理延遲問(wèn)題。模型開(kāi)源，在消費(fèi)級(jí)GPU上就能跑。

螞蟻集團(tuán)的LingBot-VLA走了另一條路，強(qiáng)調(diào)跨形態(tài)泛化。這個(gè)模型在9種不同的雙臂機(jī)器人上預(yù)訓(xùn)練了2萬(wàn)多小時(shí)的真機(jī)數(shù)據(jù)，目標(biāo)是做到“一個(gè)大腦控制所有類型的機(jī)器人”，有點(diǎn)像我們之前提到的“通用機(jī)器人策略”路線。

清華AIR和上海AI實(shí)驗(yàn)室聯(lián)合推出的X-VLA，刷新了五大仿真基準(zhǔn)，代碼、數(shù)據(jù)、權(quán)重全部公開(kāi)，可以說(shuō)是學(xué)術(shù)界最徹底的開(kāi)源范本之一。

星海圖開(kāi)源了真機(jī)數(shù)據(jù)集，以及旗下最新的G0 Plus VLA模型；智元機(jī)器人的GO-1已經(jīng)部署到了真機(jī)上執(zhí)行任務(wù)；星動(dòng)紀(jì)元的ERA-42也在探索自己的路線。

另外，自變量機(jī)器人是一家聚焦于通用機(jī)器人“大腦”研發(fā)的中國(guó)具身智能創(chuàng)業(yè)公司，CTO王昊在之前與硅谷101播客談到了開(kāi)源的初衷。

在硅谷的初創(chuàng)公司中，我們對(duì)話了由斯坦福教授Jan Liphardt創(chuàng)立的OpenMind。他說(shuō)，希望為不同廠商的人形機(jī)器人構(gòu)建一個(gè)通用的軟件層。OpenMind推出的OM1平臺(tái)強(qiáng)調(diào)開(kāi)源與跨硬件兼容，希望打破當(dāng)前機(jī)器人系統(tǒng)各自封閉的局面，讓不同設(shè)備可以共享能力與生態(tài)。他們也從一開(kāi)始就以開(kāi)源為核心理念來(lái)打造具身智能平臺(tái)，代表了一種純粹的開(kāi)源路線。

目前開(kāi)源界最受矚目的模型π?，是Physical Intelligence推出的VLA模型，屬于數(shù)十億參數(shù)級(jí)別。π?代表的是另一條思路：把“連續(xù)控制”做到極致。

在動(dòng)作生成部分，π?使用了flow matching（流匹配）思路，直接生成連續(xù)的關(guān)節(jié)軌跡。這意味著模型輸出的是一段平滑的控制信號(hào)。Physical Intelligence研究員、也是π?、π?.?論文作者柯麗一鳴在接受硅谷101播客的時(shí)候就告訴我們，π?控制頻率約為50Hz，也就是每秒更新約50次動(dòng)作。這種高頻連續(xù)控制帶來(lái)了一個(gè)質(zhì)的飛躍：π?能做折紙、玩撲克牌這種需要極高精度的任務(wù)——而這些是OpenVLA和Octo都很難勝任的。

從設(shè)計(jì)理念上看，π?更強(qiáng)調(diào)“控制質(zhì)量”和“動(dòng)作連續(xù)性”。相比把動(dòng)作當(dāng)作語(yǔ)言token預(yù)測(cè)，它更接近傳統(tǒng)控制系統(tǒng)的形式，只不過(guò)控制信號(hào)由大模型生成。

這一選擇帶來(lái)的好處是，在折疊衣物、抓取柔性物體、操作細(xì)小零件等任務(wù)中，動(dòng)作更加流暢，減少了抖動(dòng)和遲滯。

同時(shí)，π?的代碼與權(quán)重通過(guò)OpenPI項(xiàng)目對(duì)外開(kāi)放，使研究社區(qū)可以在它的基礎(chǔ)上復(fù)現(xiàn)與擴(kuò)展。這種做法在商業(yè)公司中并不常見(jiàn)，也成為開(kāi)源陣營(yíng)的重要力量。

更令人關(guān)注的是π?的迭代節(jié)奏。初版論文發(fā)布后不久，Physical Intelligence通過(guò)OpenPI項(xiàng)目公開(kāi)了模型權(quán)重與代碼。隨后數(shù)月內(nèi)，團(tuán)隊(duì)陸續(xù)發(fā)布更新版本，持續(xù)改進(jìn)泛化能力與控制穩(wěn)定性。隨后引入強(qiáng)化學(xué)習(xí)機(jī)制以進(jìn)一步優(yōu)化策略表現(xiàn)，同時(shí)強(qiáng)調(diào)在開(kāi)放環(huán)境中的適應(yīng)能力。

在機(jī)器人領(lǐng)域，這種快速迭代與持續(xù)公開(kāi)更新并不常見(jiàn)，也成為π?受到關(guān)注的重要原因之一。

不同陣營(yíng)背后的主導(dǎo)核心人物也并非對(duì)立關(guān)系，他們的關(guān)系緊密且錯(cuò)綜復(fù)雜。而更有意思的是，曾經(jīng)主導(dǎo)閉源模型的多位頂級(jí)科學(xué)家，后來(lái)成為了機(jī)器人開(kāi)源社區(qū)的領(lǐng)導(dǎo)者。他們又被稱為機(jī)器人界的“復(fù)仇者聯(lián)盟”。

OpenVLA來(lái)自斯坦福和伯克利的聯(lián)合團(tuán)隊(duì)，核心人物是這個(gè)領(lǐng)域的明星人物Chelsea Finn。

她MIT本科畢業(yè)，又在伯克利拿到博士學(xué)位，師從機(jī)器人學(xué)習(xí)教父級(jí)人物Pieter Abbeel和Sergey Levine。2019年她加入斯坦福任教，隨后一路拿獎(jiǎng)到手軟。她同時(shí)還是Physical Intelligence的聯(lián)合創(chuàng)始人，橫跨學(xué)術(shù)和商業(yè)兩個(gè)世界?？梢哉f(shuō)，Chelsea Finn一人就串起了開(kāi)源和閉源陣營(yíng)的半壁江山。

在Finn教授以外，我們可以看到OpenVLA的作者名單上除了斯坦福和伯克利的一眾研究人員，還有豐田研究院、Google DeepMind、Physical Intelligence、MIT的科學(xué)家。這說(shuō)明，OpenVLA并不只是一個(gè)閉門造車的實(shí)驗(yàn)室產(chǎn)物。

Octo和OpenVLA可以說(shuō)是“同門師兄弟”，同樣來(lái)自伯克利，由Chelsea Finn和Sergey Levine的團(tuán)隊(duì)聯(lián)合出品。

Sergey Levine是機(jī)器人強(qiáng)化學(xué)習(xí)領(lǐng)域公認(rèn)的開(kāi)創(chuàng)者之一，他是伯克利教授、Google Brain前研究科學(xué)家，后來(lái)也成了Physical Intelligence的聯(lián)合創(chuàng)始人和首席科學(xué)家，他跟Finn是博導(dǎo)和博士生的關(guān)系。

有趣的是，Levine和Finn在Google時(shí)期參與了RT-1、RT-2這些閉源項(xiàng)目，離開(kāi)后又推動(dòng)了Octo和OpenVLA這些開(kāi)源工作。這個(gè)領(lǐng)域中的同一批人，可以說(shuō)既造了閉源的堡壘，也打開(kāi)了開(kāi)源的大門。

PI的創(chuàng)始團(tuán)隊(duì)堪稱是機(jī)器人AI領(lǐng)域的“復(fù)仇者聯(lián)盟”，聯(lián)合創(chuàng)始人們各個(gè)都是來(lái)自學(xué)術(shù)界或者科技公司的大佬。

其中，Karol Hausman是Google DeepMind機(jī)器人方向的資深研究科學(xué)家，也是RT-1、RT-2和SayCan等標(biāo)志性機(jī)器人大模型工作的核心作者之一。

Brian Ichter同樣來(lái)自Google Brain，深度參與了這些項(xiàng)目的研發(fā)，是那一代機(jī)器人基礎(chǔ)模型的重要推動(dòng)者。Sergey Levine長(zhǎng)期與Google Brain合作，在機(jī)器人學(xué)習(xí)和強(qiáng)化學(xué)習(xí)領(lǐng)域處于世界前沿，是這條技術(shù)路線的關(guān)鍵思想源頭之一。

我們前面提到好幾次的Chelsea Finn也是PI的聯(lián)合創(chuàng)始人之一，她也參與了RT系列研究，在機(jī)器人泛化與自監(jiān)督學(xué)習(xí)方向做出了重要貢獻(xiàn)。

2024年初，這幾位參與Google機(jī)器人基礎(chǔ)模型路線的核心成員陸續(xù)離開(kāi)Google，并共同創(chuàng)辦了Physical Intelligence（PI）。此外，團(tuán)隊(duì)成員還包括前Stripe高管兼知名投資人Lachy Groom，以及前Anduril工程副總裁Adnan Esmail。

說(shuō)白了，是閉源陣營(yíng)里最懂技術(shù)的一幫人，決定跳出來(lái)?yè)Q一種方式做事。

但π?的身份很“糾結(jié)”，它來(lái)自一家剛成立、融資就超過(guò)10億美元、估值56億美元的商業(yè)公司。這樣一家公司，為什么要把最核心的模型開(kāi)源？這就要說(shuō)到我們的第二個(gè)核心問(wèn)題：“真”開(kāi)源和“假”開(kāi)源。

02 開(kāi)源的“真”與“假”，免費(fèi)背后的商業(yè)心機(jī)

Physical Intelligence2024年成立，投資人包括Jeff Bezos、OpenAI、Sequoia Capital、Khosla Ventures。2024年11月融了4億美元，2025年11月又融了6億美元，估值達(dá)到56億美元。

一家這么有錢的公司，為什么要把核心模型免費(fèi)放出來(lái)？答案是：這可能是Physical Intelligence最有“心機(jī)”的商業(yè)策略。

第一，開(kāi)源建立標(biāo)準(zhǔn)。當(dāng)全世界的機(jī)器人開(kāi)發(fā)者，無(wú)論是學(xué)術(shù)實(shí)驗(yàn)室、創(chuàng)業(yè)公司或者工業(yè)客戶，都在π?的框架上構(gòu)建應(yīng)用，PI就成了事實(shí)標(biāo)準(zhǔn)的定義者。別人的每一次使用，都在鞏固π?的生態(tài)地位。

第二，開(kāi)源吸引人才。最優(yōu)秀的研究者想去能發(fā)論文、能影響行業(yè)的地方，PI開(kāi)源π?之后，他們的openpi GitHub倉(cāng)庫(kù)就成了機(jī)器人領(lǐng)域最熱的項(xiàng)目之一，這比任何招聘廣告都有效。

第三，開(kāi)源加速數(shù)據(jù)飛輪。社區(qū)使用你的模型，發(fā)現(xiàn)問(wèn)題、做出改進(jìn)、貢獻(xiàn)數(shù)據(jù)，這些都回流給PI，讓下一代模型更強(qiáng)。

但要注意，π?不是100%開(kāi)源。模型權(quán)重和推理代碼公開(kāi)了，但完整的訓(xùn)練流程和PI內(nèi)部采集的數(shù)萬(wàn)小時(shí)專有數(shù)據(jù)沒(méi)有公開(kāi)。

這是一種精心設(shè)計(jì)的“開(kāi)源引流、閉源變現(xiàn)”策略，也就是用開(kāi)源的模型吸引開(kāi)發(fā)者進(jìn)入你的生態(tài)，用閉源的數(shù)據(jù)和訓(xùn)練能力保持競(jìng)爭(zhēng)優(yōu)勢(shì)。也就是說(shuō)社區(qū)可以用它的模型，但想要最好的版本，還得來(lái)找它。

我們前面提到，英偉達(dá)不只給了模型GR00T N1，還給了整套生態(tài)，包括生成合成訓(xùn)練數(shù)據(jù)的工具、物理引擎等等。聽(tīng)起來(lái)非常“開(kāi)放”，但為什么有人說(shuō)GR00T N1是“偽開(kāi)源”？

因?yàn)槟Ｐ碗m然開(kāi)放了，整個(gè)流程都在英偉達(dá)的生態(tài)里：訓(xùn)練深度綁定英偉達(dá)的硬件生態(tài)，用H100集群訓(xùn)練，在Omniverse平臺(tái)上做仿真，用Isaac Sim生成合成數(shù)據(jù)，最后部署在Jetson Thor芯片上。

對(duì)比純粹的社區(qū)開(kāi)源，比如OpenVLA和Octo沒(méi)有任何硬件綁定，沒(méi)有生態(tài)鎖定，在任何GPU上都能跑。這也許是“開(kāi)放”和“開(kāi)源”之間的根本區(qū)別。

但行業(yè)如此早期，也許根本沒(méi)有什么選擇是正確或錯(cuò)誤的。學(xué)術(shù)開(kāi)源追求的是知識(shí)共享和科學(xué)可復(fù)現(xiàn)性，商業(yè)開(kāi)源追求的是生態(tài)控制和市場(chǎng)標(biāo)準(zhǔn)，而戰(zhàn)略開(kāi)放追求的是平臺(tái)鎖定和硬件銷售。

03 生態(tài)的力量，模型+數(shù)據(jù)+工具的“組合拳”

特斯拉有自己的工廠、自己的機(jī)器人、自己的數(shù)據(jù)閉環(huán)。英偉達(dá)有全世界最強(qiáng)的算力。谷歌匯聚了最頂尖的人才。開(kāi)源社區(qū)一幫大學(xué)教授和創(chuàng)業(yè)團(tuán)隊(duì)，憑什么能跟這些巨頭掰手腕？

答案是：生態(tài)。單看任何一個(gè)開(kāi)源模型，都不如閉源巨頭。但模型、數(shù)據(jù)、工具三層生態(tài)疊加，形成的“組合拳”力量，就讓故事不一樣了。

也就是說(shuō)，閉源看似安全，但沒(méi)有社區(qū)幫你測(cè)試和改進(jìn)，反而可能變成一個(gè)人悶頭造車。

目前開(kāi)源生態(tài)的第一個(gè)優(yōu)勢(shì)就是數(shù)據(jù)集。我們前面提到，OpenVLA橫空出世，就是用了Open X-Embodiment的數(shù)據(jù)集。

Open X-Embodiment是開(kāi)源陣營(yíng)最寶貴的優(yōu)勢(shì)：一個(gè)跨平臺(tái)、跨實(shí)驗(yàn)室的機(jī)器人數(shù)據(jù)公共資源，它的規(guī)模和組織方式在機(jī)器人領(lǐng)域前所未有：超過(guò)20個(gè)研究機(jī)構(gòu)共同貢獻(xiàn)，包括斯坦福、伯克利、MIT、CMU、Google DeepMind等頂級(jí)實(shí)驗(yàn)室；22種不同的機(jī)器人本體，從單臂機(jī)械臂到雙臂協(xié)作、從桌面操作到移動(dòng)導(dǎo)航再到人形機(jī)器人；超過(guò)100萬(wàn)條真實(shí)軌跡，覆蓋527種技能。

特斯拉的數(shù)據(jù)可能更大，但全是Optimus一種機(jī)器人在特斯拉環(huán)境里的數(shù)據(jù)。Figure的數(shù)據(jù)也只有Figure 01和02的操作。而Open X-Embodiment是幾十種不同形態(tài)的機(jī)器人，在廚房、實(shí)驗(yàn)室、倉(cāng)庫(kù)、辦公室等完全不同的場(chǎng)景里采集的數(shù)據(jù)。

用訓(xùn)練RT-X模型的實(shí)驗(yàn)結(jié)果來(lái)說(shuō)明：RT-1-X在小數(shù)據(jù)域的表現(xiàn)比單獨(dú)訓(xùn)練的模型高了50%，RT-2-X甚至涌現(xiàn)出了原模型沒(méi)有的空間推理能力，是RT-2的3倍，能理解“on”和“near”這種細(xì)微的語(yǔ)言差異，這意味著它開(kāi)始理解語(yǔ)言中的空間語(yǔ)義，知道“on”意味著物體之間要建立接觸和支撐關(guān)系，而“near”只是空間鄰近。

除此之外，它還能執(zhí)行訓(xùn)練時(shí)從未見(jiàn)過(guò)的技能組合。這直接證明了：只要數(shù)據(jù)夠多樣，就算模型不是最大的，性能也能有大幅提高。

更值得一提的是數(shù)據(jù)格式的標(biāo)準(zhǔn)化貢獻(xiàn)。以前最頭疼的問(wèn)題是每個(gè)實(shí)驗(yàn)室的數(shù)據(jù)格式都不一樣：伯克利是一種格式，斯坦福是另一種，MIT又是第三種。想用多個(gè)數(shù)據(jù)集一起訓(xùn)練？先花幾個(gè)月寫轉(zhuǎn)換代碼。

而Open X-Embodiment定義了統(tǒng)一的數(shù)據(jù)格式，涵蓋視覺(jué)觀察、本體感知、動(dòng)作序列和語(yǔ)言注釋，所以在產(chǎn)業(yè)中有了一個(gè)統(tǒng)一的標(biāo)準(zhǔn)，這個(gè)很重要。

再說(shuō)一句數(shù)據(jù)的問(wèn)題，因?yàn)檫@是目前機(jī)器人領(lǐng)域最大的挑戰(zhàn)，我們的嘉賓之間分歧也很大，一派認(rèn)為大語(yǔ)言模型已經(jīng)包含了足夠的物理常識(shí)，只需少量機(jī)器人數(shù)據(jù)微調(diào)，而另外一派認(rèn)為物理世界的細(xì)節(jié)必須用真實(shí)的機(jī)器人數(shù)據(jù)來(lái)學(xué)習(xí)，互聯(lián)網(wǎng)視頻遠(yuǎn)遠(yuǎn)不夠。這里面的門道和技術(shù)可以挖得蠻深，不同的任務(wù)、不同的精度要求，需要不同的數(shù)據(jù)策略。所以，關(guān)于數(shù)據(jù)，我們之后還會(huì)單獨(dú)做一期機(jī)器人系列的深度內(nèi)容。

光有數(shù)據(jù)不夠，還需要工具把數(shù)據(jù)變成可以訓(xùn)練的模型，這就是LeRobot和Genesis的角色。

LeRobot是Hugging Face從特斯拉挖來(lái)的工程師Remi Cadene帶隊(duì)打造的開(kāi)源項(xiàng)目。Cadene之前在特斯拉參與過(guò)Autopilot和Optimus人形機(jī)器人項(xiàng)目。他帶著這些經(jīng)驗(yàn)來(lái)到Hugging Face，目標(biāo)是“讓訓(xùn)練機(jī)器人像訓(xùn)練語(yǔ)言模型一樣簡(jiǎn)單”。

2. 一鍵集成了多種主流策略模型，你不需要去讀論文改代碼，直接調(diào)用就行。

3. 打通了數(shù)據(jù)采集、模型訓(xùn)練、到真實(shí)機(jī)器人部署的全流程，以前這三步可能需要三套不同的工具鏈。

LeRobot的GitHub已經(jīng)超過(guò)2萬(wàn)星，成為了開(kāi)源機(jī)器人訓(xùn)練的標(biāo)準(zhǔn)之一。但Hugging Face的野心不止于軟件。

2025年他們收購(gòu)了法國(guó)的Pollen Robotics，推出了7萬(wàn)美元的Reachy 2開(kāi)源人形機(jī)器人，已經(jīng)在康奈爾和CMU等頂尖實(shí)驗(yàn)室使用，還推出了250美元的Reachy Mini桌面機(jī)器人。更早之前，他們和The Robot Studio合作推出了SO-100機(jī)械臂，成本只要100美元，任何人都可以在家3D打印DIY一個(gè)。

由此可見(jiàn)，Hugging Face正在把“硬件加軟件加社區(qū)”打包，構(gòu)建一個(gè)完整的開(kāi)源機(jī)器人生態(tài)。

而2024年12月發(fā)布的Genesis則嘗試優(yōu)化仿真訓(xùn)練的問(wèn)題。這是由CMU卡內(nèi)基梅隆大學(xué)主導(dǎo)、聯(lián)合MIT、斯坦福、英偉達(dá)等20多個(gè)研究實(shí)驗(yàn)室共同參與的開(kāi)源項(xiàng)目，只需在仿真中運(yùn)行數(shù)小時(shí)，就能生成相當(dāng)于現(xiàn)實(shí)世界中多年訓(xùn)練的樣本數(shù)據(jù)，大幅降低了訓(xùn)練時(shí)間和硬件成本。

比如說(shuō)，Genesis號(hào)稱在一張RTX 4090顯卡，模擬一個(gè)Franka機(jī)械臂的速度是每秒4300萬(wàn)幀。這是實(shí)時(shí)速度的43萬(wàn)倍。在Genesis里訓(xùn)練1小時(shí)，相當(dāng)于在真實(shí)世界訓(xùn)練超過(guò)49年。

這帶來(lái)的改變是，以前只有大公司能負(fù)擔(dān)的大規(guī)模仿真訓(xùn)練，現(xiàn)在一個(gè)研究生在家用一張消費(fèi)級(jí)顯卡就能做。

值得注意的是，英偉達(dá)也和Google DeepMind、Disney Research聯(lián)合開(kāi)發(fā)了一個(gè)開(kāi)源物理引擎Newton，跟Genesis形成了直接競(jìng)爭(zhēng)，所以仿真工具領(lǐng)域本身也是一個(gè)充滿競(jìng)爭(zhēng)的領(lǐng)域。

但無(wú)論如何，一部分勛章應(yīng)該要給到Hugging Face，LeRobot管真實(shí)世界，學(xué)界主導(dǎo)的Genesis管虛擬世界，兩個(gè)工具一起，把“訓(xùn)練機(jī)器人”的門檻從百萬(wàn)美元降到了幾百美元。

總結(jié)一下，模型、數(shù)據(jù)、工具,這三層疊加，就是開(kāi)源陣營(yíng)的“組合拳”。

單看任何一層，開(kāi)源都不如閉源巨頭：論人才密度和算力，不如谷歌；論數(shù)據(jù)量，不如特斯拉；論工具鏈的完整度，不如英偉達(dá)。但三層聯(lián)動(dòng)產(chǎn)生的化學(xué)反應(yīng)，釋放出了巨大的能量。

一個(gè)研究者可以用Open X-Embodiment的數(shù)據(jù)，在LeRobot框架上訓(xùn)練OpenVLA，用Genesis做仿真驗(yàn)證，然后部署到100美元的SO-100機(jī)械臂上。整個(gè)流程全部開(kāi)源，全部免費(fèi)，全部可復(fù)現(xiàn)。

這里有一個(gè)很關(guān)鍵的觀察：在大語(yǔ)言模型領(lǐng)域，開(kāi)源是追趕者。OpenAI、Anthropic和Google先行，開(kāi)源后追，晚一到兩代。但在機(jī)器人領(lǐng)域，開(kāi)源和閉源幾乎是同時(shí)起跑的。

OpenVLA在2024年6月就擊敗了RT-2-X，這個(gè)時(shí)間差的原因很簡(jiǎn)單：機(jī)器人還在非常早期的階段，沒(méi)有任何一家公司建立了壓倒性的數(shù)據(jù)或算法優(yōu)勢(shì)。這是開(kāi)源難得的“公平競(jìng)賽”窗口，如果錯(cuò)過(guò)這個(gè)窗口，等閉源公司積累了足夠的數(shù)據(jù)飛輪，開(kāi)源可能就很難追上了。

RT-2-X是谷歌的“閉源”模型，但它的訓(xùn)練數(shù)據(jù)有一部分來(lái)自O(shè)pen X-Embodiment這個(gè)開(kāi)源數(shù)據(jù)集。Chelsea Finn同時(shí)是Octo這個(gè)開(kāi)源項(xiàng)目的核心作者，也是RT系列閉源工作的推動(dòng)者，還是PI的聯(lián)合創(chuàng)始人。而英偉達(dá)的GR00T N1介于開(kāi)源和閉源之間。所以，這場(chǎng)競(jìng)爭(zhēng)不是兩個(gè)陣營(yíng)的對(duì)決，而是一個(gè)光譜上的多方博弈。

而說(shuō)到底，開(kāi)源vs閉源，表面是技術(shù)路線之爭(zhēng)，本質(zhì)是生態(tài)之爭(zhēng)，爭(zhēng)的還是誰(shuí)來(lái)定義機(jī)器人行業(yè)的基礎(chǔ)設(shè)施層。

04 開(kāi)源的挑戰(zhàn)與未來(lái)，算力、數(shù)據(jù)質(zhì)量、工程化差距與安全

但對(duì)于生態(tài)來(lái)說(shuō)，必須要直面一個(gè)現(xiàn)實(shí)：開(kāi)源面臨的挑戰(zhàn)依然很大。

首先是算力門檻，雖然有Octo這樣的輕量模型，但訓(xùn)練一個(gè)頂級(jí)開(kāi)源模型仍然需要不小的投入。OpenVLA用了64張A100跑了15天，這跟特斯拉、谷歌的算力相比是小巫見(jiàn)大巫，但對(duì)普通研究者來(lái)說(shuō)仍然是一筆不小的開(kāi)支。

其次是數(shù)據(jù)質(zhì)量，Open X-Embodiment雖然大，但不同來(lái)源的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)參差不齊，有的實(shí)驗(yàn)室標(biāo)注非常細(xì)致，有的比較粗糙。特斯拉的數(shù)據(jù)可能在多樣性上不如開(kāi)源，但在一致性上更強(qiáng)，畢竟都是同一套系統(tǒng)采集的。

第三是工程化差距，開(kāi)源模型在論文里表現(xiàn)出色，但從demo到產(chǎn)品之間有一道巨大的鴻溝。閉源公司有完整的工程團(tuán)隊(duì)做優(yōu)化、做測(cè)試、做售后，開(kāi)源社區(qū)更擅長(zhǎng)創(chuàng)新探索。但把一個(gè)模型打磨成穩(wěn)定可靠的商業(yè)產(chǎn)品，往往需要閉源公司來(lái)完成。

第四是安全問(wèn)題，如果人人都能訓(xùn)練機(jī)器人，如何防止被用于危險(xiǎn)用途？物理世界的AI比虛擬世界的大語(yǔ)言模型風(fēng)險(xiǎn)更高，聊天機(jī)器人說(shuō)錯(cuò)話最多是尷尬，但物理機(jī)器人做錯(cuò)動(dòng)作可能造成傷害。OpenMind的Jan Liphardt提出了一個(gè)大膽的方案：

用區(qū)塊鏈來(lái)約束機(jī)器人行為，這個(gè)想法很前衛(wèi)，也確實(shí)在業(yè)界也引發(fā)了一些爭(zhēng)議。但它至少說(shuō)明，開(kāi)源社區(qū)正在認(rèn)真思考安全問(wèn)題。

開(kāi)源能發(fā)展到什么程度？自變量CTO王昊給出了一個(gè)時(shí)間線預(yù)測(cè)：

GPT-3的水平意味著機(jī)器人會(huì)從“能完成簡(jiǎn)單指令”跳躍到“能理解復(fù)雜意圖并靈活執(zhí)行”，這將是一個(gè)分水嶺。

在LLM時(shí)代，我們見(jiàn)證了OpenAI從“開(kāi)放”走向封閉。一個(gè)以“Open”命名的公司，變成了一家市值千億的閉源商業(yè)帝國(guó)。在機(jī)器人時(shí)代，同樣的故事可能重演，但也可能不會(huì)。因?yàn)闄C(jī)器人領(lǐng)域有一個(gè)大語(yǔ)言模型時(shí)代沒(méi)有的東西：從一開(kāi)始就足夠強(qiáng)大的開(kāi)源生態(tài)。

最后，OpenMind創(chuàng)始人Jan Liphardt從一個(gè)父親的角度解釋了為什么他支持開(kāi)源，這個(gè)回答還蠻有人味兒的：

這就是具身智能開(kāi)源模型生態(tài)的現(xiàn)狀。這篇文章詳細(xì)聊了四個(gè)派系：學(xué)院派，巨頭，包括了中國(guó)公司在內(nèi)的創(chuàng)業(yè)派，以及單獨(dú)拎出來(lái)講的Physical Intelligence。大家出于不同的目的、在不同程度上參與了開(kāi)源生態(tài)的搭建，確定的是，這樣的生態(tài)正在幫助我們進(jìn)一步突破技術(shù)和創(chuàng)新的邊界。

本文系作者硅谷101 授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)