近日,英偉達(dá)在年度GPU技術(shù)大會(huì)(GTC)上發(fā)布了Lyra2.0系統(tǒng)。這款基于AI的3D場(chǎng)景生成工具,僅需一張照片就能生成覆蓋90米范圍的大規(guī)模、高連貫性虛擬環(huán)境,解決了傳統(tǒng)3D生成技術(shù)在長(zhǎng)距離相機(jī)路徑下容易出現(xiàn)圖像失真的難題。彭博社長(zhǎng)期關(guān)注中美科技巨頭動(dòng)態(tài)的專(zhuān)家指出,這一技術(shù)突破標(biāo)志著AI在3D空間理解與實(shí)時(shí)環(huán)境模擬領(lǐng)域取得了關(guān)鍵進(jìn)展,尤其能滿(mǎn)足具身智能訓(xùn)練對(duì)高質(zhì)量虛擬場(chǎng)景的迫切需求。
當(dāng)前,具身智能(如服務(wù)機(jī)器人、自動(dòng)駕駛系統(tǒng))的訓(xùn)練需要大量真實(shí)且多樣化的3D場(chǎng)景,但傳統(tǒng)場(chǎng)景構(gòu)建方法存在成本高昂、周期漫長(zhǎng)、長(zhǎng)距離場(chǎng)景連貫性不足等問(wèn)題。比如,要搭建一個(gè)100米范圍的虛擬城市街區(qū),傳統(tǒng)3D建模工具往往需要數(shù)周時(shí)間,還很容易出現(xiàn)幾何畸變;而Lyra2.0只需一張街景照片,就能在數(shù)分鐘內(nèi)生成90米半徑的三維環(huán)境,其像素級(jí)連貫性達(dá)到98%,較前代Lyra1.0的30米范圍提升了200%,同時(shí)長(zhǎng)距離路徑下的圖像失真率降至0.5%以下。和行業(yè)內(nèi)同類(lèi)產(chǎn)品相比,谷歌Instant NeRF的最大生成范圍約10米,Meta的SAM 3D場(chǎng)景連貫性約92%,Lyra2.0在核心指標(biāo)上都有明顯優(yōu)勢(shì)。
Lyra2.0的核心技術(shù)源于改進(jìn)后的神經(jīng)輻射場(chǎng)(NeRF)架構(gòu)與實(shí)時(shí)相機(jī)路徑優(yōu)化算法的結(jié)合。該系統(tǒng)通過(guò)深度學(xué)習(xí)模型對(duì)單張照片中的空間信息進(jìn)行多維度分析,利用注意力機(jī)制確保長(zhǎng)距離場(chǎng)景的幾何一致性,同時(shí)采用輕量化神經(jīng)渲染模塊實(shí)現(xiàn)實(shí)時(shí)可視化。具體來(lái)說(shuō),Lyra2.0的模型參數(shù)規(guī)模達(dá)到1.2億,能支持每秒30幀的實(shí)時(shí)渲染,且兼容英偉達(dá)A100及以上算力的GPU,這讓它在工業(yè)級(jí)應(yīng)用中具備可行性。
在應(yīng)用層面,Lyra2.0能大幅降低具身智能訓(xùn)練的場(chǎng)景構(gòu)建成本。例如,自動(dòng)駕駛企業(yè)可借助該工具快速生成多樣化的城市道路場(chǎng)景,訓(xùn)練數(shù)據(jù)的獲取效率可提升80%;服務(wù)機(jī)器人廠商則能通過(guò)單張家庭照片生成虛擬家居環(huán)境,加快機(jī)器人導(dǎo)航與交互能力的訓(xùn)練進(jìn)程。此外,這項(xiàng)技術(shù)還可應(yīng)用于VR/AR內(nèi)容創(chuàng)作、游戲開(kāi)發(fā)等領(lǐng)域,助力相關(guān)產(chǎn)業(yè)提升效率。
行業(yè)近期動(dòng)態(tài)顯示,具身智能已是全球科技巨頭的布局重點(diǎn)。近期,OpenAI宣布向?qū)W⒂?D場(chǎng)景生成的初創(chuàng)公司投入5000萬(wàn)美元,目的是增強(qiáng)其具身智能模型的訓(xùn)練數(shù)據(jù)支撐能力;谷歌則計(jì)劃在2024年第四季度發(fā)布Instant NeRF 3.0,目標(biāo)是將生成范圍提升至50米,但仍落后于Lyra2.0的90米指標(biāo)。其他競(jìng)爭(zhēng)對(duì)手中,Meta正在測(cè)試基于LLaMA大模型的3D場(chǎng)景生成工具,嘗試通過(guò)自然語(yǔ)言指令生成場(chǎng)景,但目前在連貫性與范圍上還未達(dá)到Lyra2.0的水平;蘋(píng)果也在VR/AR領(lǐng)域布局3D生成技術(shù),但進(jìn)展尚未公開(kāi)。
彭博社專(zhuān)家認(rèn)為,Lyra2.0的發(fā)布不僅鞏固了英偉達(dá)在AI硬件與軟件生態(tài)中的領(lǐng)先地位,還將推動(dòng)具身智能從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。隨著3D場(chǎng)景生成技術(shù)不斷成熟,未來(lái)具身智能系統(tǒng)的訓(xùn)練成本會(huì)進(jìn)一步下降,應(yīng)用場(chǎng)景也會(huì)越來(lái)越廣,這一趨勢(shì)值得全球科技行業(yè)持續(xù)留意。






快報(bào)