亚洲无码内射,日韩一级黄色电影在线观看播放

隨著具身智能的向前發(fā)展，傳統(tǒng)的VLA技術(shù)路線正在面臨越來越多的挑戰(zhàn)。

所謂VLA模型，即視覺-語言-動(dòng)作模型。它的技術(shù)邏輯可以簡單描述為，將人類指令和外界多模態(tài)信息（聲音、圖像、視頻）轉(zhuǎn)化為計(jì)算機(jī)語言，繼而控制機(jī)器人行為。

但在VLA模型的訓(xùn)練中，互聯(lián)網(wǎng)上的靜態(tài)、非結(jié)構(gòu)化文本和圖像數(shù)據(jù)，并不是訓(xùn)練所需的核心數(shù)據(jù)。物理世界數(shù)據(jù)的稀缺與復(fù)雜性，成為了制約VLA模型能力躍升的主要瓶頸。

VLA之后，具身智能接下來將往何處去？這成為了具身智能整個(gè)行業(yè)，都在試圖解決的問題。

近日，螞蟻靈波對(duì)外開源了LingBot-Depth、LingBot-VLA 、LingBot-World 以及LingBot-VA系列模型。其中 LingBot-VA 所代表的“邊預(yù)測、邊行動(dòng)”的具身世界模型范式，正與行業(yè)近期的探索形成呼應(yīng)。而四個(gè)模型的開源，則將這套能力拆成可復(fù)用的模塊與接口，為開發(fā)者提供從研究驗(yàn)證到工程試驗(yàn)的基礎(chǔ)設(shè)施，從而降低具身智能研發(fā)與集成門檻。

LingBot-VA開源，首創(chuàng)“自回歸視頻-動(dòng)作范式”

螞蟻靈波開源周中，具身世界模型LingBot-VA成為了收官之作，其核心突破在于它改變了機(jī)器人的思考方式。

傳統(tǒng)機(jī)器人主要基于“視覺-語言-動(dòng)作”范式，其決策模式類似于“條件反射”：看到什么，就做什么。這種方式難以應(yīng)對(duì)需要多步驟規(guī)劃和因果推理的復(fù)雜任務(wù)。

在物理執(zhí)行動(dòng)作之前，它會(huì)在內(nèi)部模擬并推演未來幾秒的世界狀態(tài)變化，再根據(jù)這個(gè)推演結(jié)果來決定當(dāng)前的最佳動(dòng)作。這使得機(jī)器人能夠像人一樣“先思后行”，顯著提升了在復(fù)雜、長時(shí)序任務(wù)中的可靠性和智能水平。

實(shí)現(xiàn)這一切的基礎(chǔ)在于，LingBot-VA在核心范式上的創(chuàng)新。

LingBot-VA首創(chuàng)了“自回歸視頻-動(dòng)作范式”：將大規(guī)模視頻生成模型與機(jī)器人控制深度融合，模型在生成“下一步世界狀態(tài)”的同時(shí)，直接推演并輸出對(duì)應(yīng)的動(dòng)作序列。

具體而言，Mixture-of-Transformers (MoT) 架構(gòu)讓視頻流（寬而深，負(fù)責(zé)視覺推演）與動(dòng)作流（輕而快，負(fù)責(zé)運(yùn)動(dòng)控制）共享注意力機(jī)制又保持獨(dú)立；閉環(huán)推演機(jī)制：每一步生成都納入真實(shí)世界的實(shí)時(shí)反饋（如攝像頭數(shù)據(jù)），形成“預(yù)測-執(zhí)行-感知-修正”的循環(huán)，防止幻覺漂移。

最后，異步推理管線讓動(dòng)作預(yù)測與電機(jī)執(zhí)行并行處理，大幅降低延遲。

得益于LingBot-VA的技術(shù)創(chuàng)新，機(jī)器人在制作早餐、插入試管、疊衣物等長時(shí)序、高精度、柔性物體操控任務(wù)中，成功率相較業(yè)界基線模型平均提升約20%；在雙臂協(xié)同操作基準(zhǔn)RoboTwin 2.0上成功率首次超過90%，在長時(shí)序終身學(xué)習(xí)基準(zhǔn)LIBERO上達(dá)到98.5%的平均成功。

LingBot 系列開源，構(gòu)建具身智能的通用基礎(chǔ)設(shè)施

除了LingBot-VA之外，螞蟻靈波還連續(xù)開源了LingBot-Depth（空間感知）、LingBot-VLA以及LingBot-World。這四者共同構(gòu)成了一套覆蓋“感知-理解-模擬-行動(dòng)”的完整具身智能技術(shù)棧。

LingBot-Depth?相當(dāng)于機(jī)器人的“眼睛”，通過高精度空間感知模型，解決透明、反光物體識(shí)別難題，透明物體抓取成功率從0提升至50%。

LingBot-VLA?，類似于機(jī)器人的“大腦”，讓機(jī)器人理解指令并規(guī)劃基礎(chǔ)動(dòng)作。基于2萬小時(shí)真實(shí)機(jī)器人數(shù)據(jù)訓(xùn)練，LingBot-VLA在GM-100基準(zhǔn)測試中，成功率超越基線模型Pi0.5。

可以看到，與業(yè)內(nèi)主流的“仿真到現(xiàn)實(shí)”（Sim-to-Real）路徑不同，螞蟻靈波更篤信基于真實(shí)世界數(shù)據(jù)訓(xùn)練的價(jià)值。

LingBot-VLA覆蓋了9種主流雙臂機(jī)器人構(gòu)型（包括 AgileX，Galaxea R1Pro、R1Lite 、AgiBot G1等），實(shí)現(xiàn)了讓同一個(gè)“大腦”可以無縫遷移至不同構(gòu)型的機(jī)器人，并在任務(wù)變化、環(huán)境變化時(shí)保持可用的成功率與魯棒性。

與高精度空間感知模型LingBot-Depth配合，LingBot-VLA還能獲得更高質(zhì)量的深度信息表征，通過“視力”的升級(jí)，真正做到“看得更清楚、做的更明白”。

利用多階段訓(xùn)練和并行加速，LingBot-World可以實(shí)現(xiàn)長達(dá)近10分鐘的連續(xù)、穩(wěn)定和無損視頻生成，以解決視頻生成中的常見挑戰(zhàn)——“長時(shí)漂移”，也即長時(shí)間的生成通常會(huì)出現(xiàn)物體變形、細(xì)節(jié)崩潰、主體消失或場景結(jié)構(gòu)崩潰等現(xiàn)象。

同時(shí)，LingBot-World在長序列一致性、實(shí)時(shí)響應(yīng)性以及對(duì)行動(dòng)和環(huán)境動(dòng)態(tài)之間的因果關(guān)系進(jìn)行建模方面表現(xiàn)出色。這使得它能夠在數(shù)字空間中“想象”物理世界，為人工智能代理提供一個(gè)具有成本效益、高保真環(huán)境，用于試錯(cuò)學(xué)習(xí)。

“機(jī)器人規(guī)?；闹饕璧K不在硬件，而在’反復(fù)訓(xùn)練/再訓(xùn)練（retraining）‘，也就是每做一個(gè)新任務(wù)或換一種機(jī)器人，往往就要重新采數(shù)據(jù)、重新調(diào)參，工程成本很高。這也是機(jī)器人很難從試點(diǎn)走向大規(guī)模部署的原因之一。”

MarkTechPost CEOAsif Razzag表示，螞蟻靈波發(fā)布的一系列模型很有意思，從感知到認(rèn)知，全棧（full-stack）體系，每個(gè)模型互為助力，并且全部開源。

也正是基于這樣的設(shè)計(jì)，全面開源的LingBot系列模型，構(gòu)建了具身智能完整的通用基礎(chǔ)設(shè)施，讓開發(fā)者可以按需選用或組合。這種新的研究范式，在降低具身智能研發(fā)門檻的同時(shí)，也加速了具身智能從實(shí)驗(yàn)室走向產(chǎn)業(yè)化的進(jìn)程。（文 | 科技潛線，作者 | 饒翔宇編輯 | 鐘毅）

快報(bào)