隨著具身智能的向前發(fā)展,傳統(tǒng)的VLA技術(shù)路線正在面臨越來越多的挑戰(zhàn)。

所謂VLA模型,即視覺-語言-動作模型。它的技術(shù)邏輯可以簡單描述為,將人類指令和外界多模態(tài)信息(聲音、圖像、視頻)轉(zhuǎn)化為計算機語言,繼而控制機器人行為。

但在VLA模型的訓練中,互聯(lián)網(wǎng)上的靜態(tài)、非結(jié)構(gòu)化文本和圖像數(shù)據(jù),并不是訓練所需的核心數(shù)據(jù)。物理世界數(shù)據(jù)的稀缺與復雜性,成為了制約VLA模型能力躍升的主要瓶頸。

VLA之后,具身智能接下來將往何處去?這成為了具身智能整個行業(yè),都在試圖解決的問題。

近日,螞蟻靈波對外開源了LingBot-Depth、LingBot-VLA 、LingBot-World 以及LingBot-VA系列模型。其中 LingBot-VA 所代表的“邊預測、邊行動”的具身世界模型范式,正與行業(yè)近期的探索形成呼應。而四個模型的開源,則將這套能力拆成可復用的模塊與接口,為開發(fā)者提供從研究驗證到工程試驗的基礎設施,從而降低具身智能研發(fā)與集成門檻。

LingBot-VA開源,首創(chuàng)“自回歸視頻-動作范式”

螞蟻靈波開源周中, 具身世界模型LingBot-VA成為了收官之作,其核心突破在于它改變了機器人的思考方式。

傳統(tǒng)機器人主要基于“視覺-語言-動作”范式,其決策模式類似于“條件反射”:看到什么,就做什么。這種方式難以應對需要多步驟規(guī)劃和因果推理的復雜任務。

LingBot-VA則讓機器人具備“腦補”能力。

1

在物理執(zhí)行動作之前,它會在內(nèi)部模擬并推演未來幾秒的世界狀態(tài)變化,再根據(jù)這個推演結(jié)果來決定當前的最佳動作。這使得機器人能夠像人一樣“先思后行”,顯著提升了在復雜、長時序任務中的可靠性和智能水平。

實現(xiàn)這一切的基礎在于,LingBot-VA在核心范式上的創(chuàng)新。

LingBot-VA首創(chuàng)了“自回歸視頻-動作范式”:將大規(guī)模視頻生成模型與機器人控制深度融合,模型在生成“下一步世界狀態(tài)”的同時,直接推演并輸出對應的動作序列。

具體而言,Mixture-of-Transformers (MoT) 架構(gòu)讓視頻流(寬而深,負責視覺推演)與動作流(輕而快,負責運動控制)共享注意力機制又保持獨立;閉環(huán)推演機制:每一步生成都納入真實世界的實時反饋(如攝像頭數(shù)據(jù)),形成“預測-執(zhí)行-感知-修正”的循環(huán),防止幻覺漂移。

最后,異步推理管線讓動作預測與電機執(zhí)行并行處理,大幅降低延遲。

得益于LingBot-VA的技術(shù)創(chuàng)新,機器人在制作早餐、插入試管、疊衣物等長時序、高精度、柔性物體操控任務中,成功率相較業(yè)界基線模型平均提升約20%;在雙臂協(xié)同操作基準RoboTwin 2.0上成功率首次超過90%,在長時序終身學習基準LIBERO上達到98.5%的平均成功。

LingBot 系列開源,構(gòu)建具身智能的通用基礎設施

除了LingBot-VA之外,螞蟻靈波還連續(xù)開源了LingBot-Depth(空間感知)、LingBot-VLA以及LingBot-World。這四者共同構(gòu)成了一套覆蓋“感知-理解-模擬-行動”的完整具身智能技術(shù)棧。

LingBot-Depth?相當于機器人的“眼睛”,通過高精度空間感知模型,解決透明、反光物體識別難題,透明物體抓取成功率從0提升至50%。

LingBot-VLA?,類似于機器人的“大腦”,讓機器人理解指令并規(guī)劃基礎動作?;?萬小時真實機器人數(shù)據(jù)訓練,LingBot-VLA在GM-100基準測試中,成功率超越基線模型Pi0.5。

1

可以看到,與業(yè)內(nèi)主流的“仿真到現(xiàn)實”(Sim-to-Real)路徑不同,螞蟻靈波更篤信基于真實世界數(shù)據(jù)訓練的價值。

LingBot-VLA覆蓋了9種主流雙臂機器人構(gòu)型(包括 AgileX,Galaxea R1Pro、R1Lite 、AgiBot G1等),實現(xiàn)了讓同一個“大腦”可以無縫遷移至不同構(gòu)型的機器人,并在任務變化、環(huán)境變化時保持可用的成功率與魯棒性。

與高精度空間感知模型LingBot-Depth配合,LingBot-VLA還能獲得更高質(zhì)量的深度信息表征,通過“視力”的升級,真正做到“看得更清楚、做的更明白”。

LingBot-World,則是機器人的“數(shù)字演練場”。

利用多階段訓練和并行加速,LingBot-World可以實現(xiàn)長達近10分鐘的連續(xù)、穩(wěn)定和無損視頻生成,以解決視頻生成中的常見挑戰(zhàn)——“長時漂移”,也即長時間的生成通常會出現(xiàn)物體變形、細節(jié)崩潰、主體消失或場景結(jié)構(gòu)崩潰等現(xiàn)象。

同時,LingBot-World在長序列一致性、實時響應性以及對行動和環(huán)境動態(tài)之間的因果關(guān)系進行建模方面表現(xiàn)出色。這使得它能夠在數(shù)字空間中“想象”物理世界,為人工智能代理提供一個具有成本效益、高保真環(huán)境,用于試錯學習。

“機器人規(guī)?;闹饕璧K不在硬件,而在’反復訓練/再訓練(retraining)‘,也就是每做一個新任務或換一種機器人,往往就要重新采數(shù)據(jù)、重新調(diào)參,工程成本很高。這也是機器人很難從試點走向大規(guī)模部署的原因之一。”

MarkTechPost CEOAsif Razzag表示,螞蟻靈波發(fā)布的一系列模型很有意思,從感知到認知,全棧(full-stack)體系,每個模型互為助力,并且全部開源。

也正是基于這樣的設計,全面開源的LingBot系列模型,構(gòu)建了具身智能完整的通用基礎設施,讓開發(fā)者可以按需選用或組合。這種新的研究范式,在降低具身智能研發(fā)門檻的同時,也加速了具身智能從實驗室走向產(chǎn)業(yè)化的進程。(文 | 科技潛線,作者 | 饒翔宇 編輯 | 鐘毅)

轉(zhuǎn)載請注明出處、作者和本文鏈接。
聲明:文章內(nèi)容僅供參考、交流、學習、不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

19:23

STOXX歐洲600指數(shù)漲幅擴大至1%,創(chuàng)下當日高點

19:18

DeepSeek連續(xù)3天發(fā)生服務異常

19:17

沃爾核材:2025年度凈利潤11.44億元,同比增長34.96%

19:17

捷佳偉創(chuàng):詢價轉(zhuǎn)讓初步定價94.12元/股

19:16

霸王茶姬2025全年凈收入達129.1億,海外GMV大漲超84%

19:15

智譜AI發(fā)布上市后首份財報:營收同比增長131.9%

19:04

陽光電源:2025年度凈利潤134.61億元,同比增長21.97%

19:00

LME期鋁期貨合約上漲3%,至每噸3,505美元

18:58

兩面針:實際控制人將變更為廣西壯族自治區(qū)國資委,明起復牌

18:57

春秋航空:控股股東提議3億元-5億元回購股份

18:57

中指研究院:前三個月TOP100房企銷售總額6208.7億元

18:48

雪浪環(huán)境:與7家財務投資人簽署重整投資協(xié)議

18:47

長春高新:1類治療用生物制品GenSci161注射液臨床試驗申請獲批準 目前國內(nèi)外尚無同類藥物在子宮內(nèi)膜異位癥領(lǐng)域獲批上市

18:33

嘉華股份:實控人籌劃控制權(quán)變更,明起停牌

18:28

順網(wǎng)科技:擬收購紹興未來山海32.34%股權(quán)

18:26

央行:2月同業(yè)拆借日均成交4293.2億元,同比增加87.1%

18:25

美的集團:3月31日回購130.51萬股,耗資約1億元

18:20

二季度國債發(fā)行有關(guān)安排公布,機構(gòu)認為二季度發(fā)行有望放量

18:19

2025年中國保險行業(yè)承保新能源汽車同比增長40.1%

18:18

杭華股份:持股5%以上股東擬減持不超3%股份

掃描下載App