英偉達(dá)Lyra2.0：?jiǎn)握丈?0米3D環(huán)境，具身智能訓(xùn)練迎來(lái)關(guān)鍵突破

2026.04.17 14:49

英偉達(dá)近日發(fā)布Lyra2.0系統(tǒng)，通過(guò)單張照片生成90米高連貫性3D虛擬環(huán)境，解決長(zhǎng)距離失真問(wèn)題，核心指標(biāo)超越谷歌、Meta等競(jìng)爭(zhēng)對(duì)手，滿(mǎn)足具身智能訓(xùn)練需求，推動(dòng)AI在3D空間理解領(lǐng)域進(jìn)展。

近日，英偉達(dá)在年度GPU技術(shù)大會(huì)（GTC）上發(fā)布了Lyra2.0系統(tǒng)。這款基于AI的3D場(chǎng)景生成工具，僅需一張照片就能生成覆蓋90米范圍的大規(guī)模、高連貫性虛擬環(huán)境，解決了傳統(tǒng)3D生成技術(shù)在長(zhǎng)距離相機(jī)路徑下容易出現(xiàn)圖像失真的難題。彭博社長(zhǎng)期關(guān)注中美科技巨頭動(dòng)態(tài)的專(zhuān)家指出，這一技術(shù)突破標(biāo)志著AI在3D空間理解與實(shí)時(shí)環(huán)境模擬領(lǐng)域取得了關(guān)鍵進(jìn)展，尤其能滿(mǎn)足具身智能訓(xùn)練對(duì)高質(zhì)量虛擬場(chǎng)景的迫切需求。

當(dāng)前，具身智能（如服務(wù)機(jī)器人、自動(dòng)駕駛系統(tǒng)）的訓(xùn)練需要大量真實(shí)且多樣化的3D場(chǎng)景，但傳統(tǒng)場(chǎng)景構(gòu)建方法存在成本高昂、周期漫長(zhǎng)、長(zhǎng)距離場(chǎng)景連貫性不足等問(wèn)題。比如，要搭建一個(gè)100米范圍的虛擬城市街區(qū)，傳統(tǒng)3D建模工具往往需要數(shù)周時(shí)間，還很容易出現(xiàn)幾何畸變；而Lyra2.0只需一張街景照片，就能在數(shù)分鐘內(nèi)生成90米半徑的三維環(huán)境，其像素級(jí)連貫性達(dá)到98%，較前代Lyra1.0的30米范圍提升了200%，同時(shí)長(zhǎng)距離路徑下的圖像失真率降至0.5%以下。和行業(yè)內(nèi)同類(lèi)產(chǎn)品相比，谷歌Instant NeRF的最大生成范圍約10米，Meta的SAM 3D場(chǎng)景連貫性約92%，Lyra2.0在核心指標(biāo)上都有明顯優(yōu)勢(shì)。

Lyra2.0的核心技術(shù)源于改進(jìn)后的神經(jīng)輻射場(chǎng)（NeRF）架構(gòu)與實(shí)時(shí)相機(jī)路徑優(yōu)化算法的結(jié)合。該系統(tǒng)通過(guò)深度學(xué)習(xí)模型對(duì)單張照片中的空間信息進(jìn)行多維度分析，利用注意力機(jī)制確保長(zhǎng)距離場(chǎng)景的幾何一致性，同時(shí)采用輕量化神經(jīng)渲染模塊實(shí)現(xiàn)實(shí)時(shí)可視化。具體來(lái)說(shuō)，Lyra2.0的模型參數(shù)規(guī)模達(dá)到1.2億，能支持每秒30幀的實(shí)時(shí)渲染，且兼容英偉達(dá)A100及以上算力的GPU，這讓它在工業(yè)級(jí)應(yīng)用中具備可行性。

在應(yīng)用層面，Lyra2.0能大幅降低具身智能訓(xùn)練的場(chǎng)景構(gòu)建成本。例如，自動(dòng)駕駛企業(yè)可借助該工具快速生成多樣化的城市道路場(chǎng)景，訓(xùn)練數(shù)據(jù)的獲取效率可提升80%；服務(wù)機(jī)器人廠商則能通過(guò)單張家庭照片生成虛擬家居環(huán)境，加快機(jī)器人導(dǎo)航與交互能力的訓(xùn)練進(jìn)程。此外，這項(xiàng)技術(shù)還可應(yīng)用于VR/AR內(nèi)容創(chuàng)作、游戲開(kāi)發(fā)等領(lǐng)域，助力相關(guān)產(chǎn)業(yè)提升效率。

行業(yè)近期動(dòng)態(tài)顯示，具身智能已是全球科技巨頭的布局重點(diǎn)。近期，OpenAI宣布向?qū)Ｗ⒂?D場(chǎng)景生成的初創(chuàng)公司投入5000萬(wàn)美元，目的是增強(qiáng)其具身智能模型的訓(xùn)練數(shù)據(jù)支撐能力；谷歌則計(jì)劃在2024年第四季度發(fā)布Instant NeRF 3.0，目標(biāo)是將生成范圍提升至50米，但仍落后于Lyra2.0的90米指標(biāo)。其他競(jìng)爭(zhēng)對(duì)手中，Meta正在測(cè)試基于LLaMA大模型的3D場(chǎng)景生成工具，嘗試通過(guò)自然語(yǔ)言指令生成場(chǎng)景，但目前在連貫性與范圍上還未達(dá)到Lyra2.0的水平；蘋(píng)果也在VR/AR領(lǐng)域布局3D生成技術(shù)，但進(jìn)展尚未公開(kāi)。

彭博社專(zhuān)家認(rèn)為，Lyra2.0的發(fā)布不僅鞏固了英偉達(dá)在AI硬件與軟件生態(tài)中的領(lǐng)先地位，還將推動(dòng)具身智能從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。隨著3D場(chǎng)景生成技術(shù)不斷成熟，未來(lái)具身智能系統(tǒng)的訓(xùn)練成本會(huì)進(jìn)一步下降，應(yīng)用場(chǎng)景也會(huì)越來(lái)越廣，這一趨勢(shì)值得全球科技行業(yè)持續(xù)留意。

作品聲明：內(nèi)容由AI生成

快報(bào)