圖片來源:特斯拉

其中Elluswamy重點介紹了特斯拉的生成式高斯噴濺(Generative Gaussian Splatting),和傳統(tǒng)的高斯噴濺相比,特斯拉GGS具有更強的泛化能力,生成場景僅需要220毫秒,無需初始化,可建模動態(tài)物體,并能與端到端AI模型聯(lián)合訓(xùn)練。

最后、也是最具挑戰(zhàn)性的一步,是模型評估。

即使擁有高質(zhì)量的數(shù)據(jù)集,開環(huán)預(yù)測的損失函數(shù)下降,也未必意味著在真實世界中能有良好表現(xiàn)。評估體系必須多樣化且覆蓋不同模式,以支持快速的開發(fā)迭代。

為此,特斯拉開發(fā)了一個神經(jīng)世界模擬器(Neural World Simulator)。該模擬器基于特斯拉自建的海量數(shù)據(jù)集進行訓(xùn)練,但與常規(guī)模型不同,它不是預(yù)測動作,而是根據(jù)當(dāng)前狀態(tài)與下一步動作生成未來狀態(tài)。從而與車端的端到端基礎(chǔ)模型閉環(huán),做真實效果的評估。

圖片來源:特斯拉

神經(jīng)世界模擬器在駕駛策略的指令下,按因果關(guān)系生成可交互的未來:不僅能基于歷史數(shù)據(jù)重放并驗證新的駕駛模型,還能系統(tǒng)地合成對抗性/極端場景,用于長尾覆蓋與安全邊界測試。

在工程實現(xiàn)上,特斯拉也強調(diào)該模擬器可實時或近實時地產(chǎn)生高分辨率、因果一致的響應(yīng),用于研發(fā)環(huán)節(jié)的快速驗證。除此之外,這類視頻生成能力還可在閉環(huán)環(huán)境中進行大規(guī)模強化學(xué)習(xí),以實現(xiàn)超越人類水平的表現(xiàn)。

圖片來源:特斯拉

盡管特斯拉并未在分享中明確使用“世界模型”這一稱呼,但從其神經(jīng)世界模擬器的能力與用法來看,它本質(zhì)上就是一個極其強大的世界模型。

與傳統(tǒng)云端世界模型不同,特斯拉的系統(tǒng)不僅具備高保真場景生成能力,更關(guān)鍵的是,它能夠在給定候選動作的條件下,預(yù)測未來幾秒內(nèi)的世界演化,從而實現(xiàn)決策前瞻與安全驗證。

模型不再只是“生成環(huán)境”,而是能“想象并評估行動結(jié)果”的因果預(yù)測系統(tǒng)。

從特斯拉將“預(yù)測未來幾秒的世界演化”作為決策前瞻核心這一點出發(fā),車端基礎(chǔ)模型很可能走的也是世界模型路線:在車端進行實時的動作條件未來預(yù)測,在云端以神經(jīng)世界模擬器進行大規(guī)模場景重現(xiàn)與回歸驗證,兩者在目標(biāo)與表征層面高度對齊,從而形成訓(xùn)練—評估—上線的一體化閉環(huán)。

二、何為世界模型?

端到端架構(gòu)能為自動駕駛帶來更高的上限,這已經(jīng)是行業(yè)的共識。但是如何在端到端的框架下讓自動駕駛達到甚至超越人類的駕駛水平,實現(xiàn)真正的無人駕駛,目前還沒有一個明確的方向,在多種技術(shù)路線中,世界模型無疑是其中重要的一支。

圖片來源:World Models for Autonomous Driving: An Initial Survey

世界模型并沒有一個標(biāo)準(zhǔn)的定義,但業(yè)內(nèi)逐漸形成了對它的共識,世界模型是一個生成式時空神經(jīng)系統(tǒng),它將來自攝像頭、激光雷達、雷達和導(dǎo)航地圖等多模態(tài)輸入壓縮成潛在狀態(tài),該狀態(tài)不僅編碼了幾何、語義信息,還攜帶因果上下文。

世界模型可以在潛在空間內(nèi)推演環(huán)境未來,并讓智能體在執(zhí)行動作前“演練”整個軌跡。正因如此,有人將世界模型形象地稱為能夠在腦海里“想象未來”的模型。

世界模型通常覆蓋三類任務(wù):

它不僅是感知或預(yù)測模塊的簡單堆疊,而是一個統(tǒng)一的大腦:它將現(xiàn)實世界壓縮成可演化的內(nèi)部表示,并通過生成式推演支撐規(guī)劃與決策。它需要具備以下核心能力:

世界模型首先要將高維、多模態(tài)感知輸入映射到一個低維的潛在狀態(tài)。這一潛在表示既要包含環(huán)境中的幾何、語義信息,又要隨時間更新,使模型能夠在此空間內(nèi)捕捉環(huán)境狀態(tài)的轉(zhuǎn)移。該能力意味著模型不再依賴顯示的BEV或占據(jù)柵格,而是以更加抽象但富含語義的形式表示“世界”。

在潛在狀態(tài)獲得之后,世界模型必須能夠在給定候選動作(加速、制動、變道等)的條件下,生成多步未來場景。這種生成不僅僅是時間上的外推,更是“假如我采取這個動作,其他道路參與者會如何反應(yīng)、場景會如何變化”的因果推理。換言之,它不只是預(yù)測“將會發(fā)生什么”,更要回答“如果我這樣做,會發(fā)生什么”。

世界模型的重要特征在于預(yù)測與規(guī)劃的深度耦合。模型生成的未來場景不僅提供參考,而是直接用于評估不同動作的風(fēng)險和收益,從而在潛在空間中完成候選動作的比較—篩選—決策。這種閉環(huán)能力使世界模型能夠在端到端框架中直接輸出控制信號,就像特斯拉的“神經(jīng)世界模擬器”那樣,能在閉環(huán)仿真中評估新模型、生成對抗場景,并進行大規(guī)模強化學(xué)習(xí)來獲得超越人類的性能。

真實的道路中不僅有自車,還有別的車和行人,大家的運動狀態(tài)會互相影響。世界模型要在“腦海里的狀態(tài)空間”里,把這些參與者的位置、速度、意圖表示出來,并且隨著時間跟蹤他們彼此之間的互動。

同時,現(xiàn)實中的未來不是只有唯一的答案:前車可能并線,也可能減速。所以模型不能只給一條“最可能的軌跡”,而要給出一組可能的未來,讓系統(tǒng)在安全、效率、舒適之間做權(quán)衡。

世界模型應(yīng)當(dāng)具有長期記憶和自我進化能力——能夠積累駕駛經(jīng)驗、持續(xù)擴充其內(nèi)部世界,并在不同任務(wù)和場景間遷移。這使它不僅適用于某條路線或某種條件,而是可在多種條件下泛化。

正是世界模型強大的能力,讓它成為現(xiàn)在自動駕駛領(lǐng)域最熱門的研究方向之一,很多人相信世界模型是通往L3和L4級別自動駕駛的關(guān)鍵鑰匙。

三、中國的世界模型之路

作為自動駕駛技術(shù)應(yīng)用最廣泛的中國,世界模型已經(jīng)生根發(fā)芽,既有像商湯這樣專注于云端,為自動駕駛補充合成數(shù)據(jù)的技術(shù)公司,也有像蔚來和華為這樣堅定的讓世界模型上車的整車廠。在中國,世界模型正扮演著越來越重要的角色。

蔚來汽車是較早公開將世界模型作為核心技術(shù)路線的公司之一。在2024年“NIO IN”發(fā)布會上,蔚來宣布了中國首個駕駛世界模型“NWM(Nio World Model)”,蔚來將其定義為“能夠全量理解多模態(tài)信息、生成新場景并預(yù)測未來的多元自回歸生成模型”。

圖片來源:蔚來

它在空間上完成“想象重建”(將感知到的物理世界逼真地重建為可編輯的虛擬世界),在時間上完成“想象推演”(在內(nèi)部時空中滾動預(yù)演不同未來),進而輸出可執(zhí)行的軌跡與動作。并展示了其在車端的應(yīng)用。NWM可在100毫秒內(nèi)推理216種可能的駕駛場景 并選取最優(yōu)決策。蔚來官方表示,模型可以用3秒的歷史視頻提示生成長達20秒的未來視頻;世界模型通過生成式推演形成所謂“平行世界”,在這些想象出的未來中評估不同動作的后果。除了純視覺輸入,NWM還融合激光雷達、地圖和自車運動信息,并能理解駕駛員的語言指令。

圖片來源:蔚來

蔚來在云端開發(fā)了NSim作為生成式神經(jīng)模擬器,NWM基于真實視頻進行三維重建后,進入NSim進行可編輯的場景分解、深度與法向量檢查、視角任意切換,并把NWM的推演軌跡與NSim的仿真結(jié)果對齊比對,從“唯一真實軌跡的回放評測”升級為“海量平行世界的對照評測”,以此形成數(shù)據(jù)閉環(huán)和針對性對抗場景的生成。再結(jié)合蔚來的“群體智能”源源不斷的收集真實世界中的長尾場景,形成雙輪驅(qū)動,加速模型迭代。

NWM的首個版本已于今年6月推送,在主動安全方面新增3大功能:

在高速/快速路場景,監(jiān)測到駕駛員無意識后,車輛緩慢減速并變道至最右側(cè)應(yīng)急車道,開啟雙閃 + SOS主動介入,由“車道內(nèi)安全停車”升級為“自主安全靠邊”,顯著降低在車道內(nèi)停車帶來的追尾風(fēng)險。

在0–150km/h 范圍內(nèi)對后向潛在碰撞進行警示;當(dāng)碰撞不可避免時,系統(tǒng)在500ms內(nèi)完成從感知決策到制動建壓,最大可將被動前移距離降低93%,減少二次事故風(fēng)險。

在轉(zhuǎn)彎、變道靠邊等動作中,對抬桿/護墻/隔離柵/路沿等多類型障礙均可響應(yīng),減少低速靠邊剮蹭、車庫盤樓剮蹭等常見事故。

高速領(lǐng)航新增了ETC場景智能通行和“智能駕享模式”(行車風(fēng)格更穩(wěn)健,跟車/變道更平順、更強的防御性駕駛,必要時可自主閃燈/鳴笛提醒周邊車輛)。

城區(qū)點到點領(lǐng)航新增2大功能:

智能泊車更新為全模型化泊車輔助,360°全向車位識別、車位顯示范圍×4,可在任意位置發(fā)起泊入指令并長距離漫游泊車,在不同車位間自動騰挪切換;只要不被墻體完全阻隔,就能實現(xiàn)“可見即可選、可選即可泊”。

NWM的成功量產(chǎn)以及對智駕功能的全面升級,體現(xiàn)了世界模型在車端巨大的潛力。

在圍繞世界模型的技術(shù)路線爭論中,作為國內(nèi)智駕領(lǐng)域的”帶頭大哥“,華為給出的答案是“WA(World?Action)”——一種強調(diào)直接感知到控制的世界模型路線。

圖片來源:華為

華為智能汽車解決方案BU總裁靳玉志公開表示,公司不會追隨VLA的潮流,而是堅持以傳感器信號直接驅(qū)動動作的世界?行動模型。

在華為看來,VLA利用大語言模型將視頻轉(zhuǎn)化為“語言 token”再生成控制命令,看似是捷徑,實則不能提供真正的自主能力;只有跳過語言層,直接從視覺、聲音等多模態(tài)感知信息生成駕駛指令,才能在空間感知和實時性上滿足高級自動駕駛要求。

華為的ADS 4平臺基于WA原則進一步演化出 WEWA(World Engine + World Action)架構(gòu):

WEWA省略了語言層避免了抽象化損失,并通過多顆激光雷達和高性能硬件確保模型獲得盡可能完整的環(huán)境信息。這樣雖然硬件成本更高,但靳玉志認為這是實現(xiàn)安全可靠自動駕駛的唯一道路。

華為強調(diào),真正的世界模型不僅限于仿真,而是支撐車輛實時決策的核心。在WEWA架構(gòu)中,云端的World Engine使用大量仿真和實車數(shù)據(jù)對模型進行“夢境訓(xùn)練”,學(xué)習(xí)環(huán)境的演化規(guī)律并生成優(yōu)化后的參數(shù);這些參數(shù)通過OTA下發(fā)到車端的World Action模型,使車輛在物理一致的“世界表示”上直接規(guī)劃和控制。為了獲得盡可能完整的環(huán)境感知,華為在車端使用多顆激光雷達和高性能硬件,在最新的問界M9和尊界S800上,已經(jīng)開始使用4個激光雷達的方案。

靳玉志強調(diào),這條路線雖然成本更高,但能夠提供更強的空間理解和決策可靠性,是華為走向高級自動駕駛的唯一道路。

商湯科技旗下的自動駕駛品牌絕影智駕推出了世界模型“開悟”并用于大規(guī)模仿真數(shù)據(jù)生成。2025年世界人工智能大會(WAIC)上,絕影發(fā)布了升級版的交互式世界模型產(chǎn)品平臺,以及業(yè)內(nèi)最大規(guī)模的生成式駕駛數(shù)據(jù)集WorldSim?Drive。這一平臺基于先進世界模型技術(shù),具備對物理規(guī)律的理解和對場景元素的控制能力,是面向車企和開發(fā)者開放試用的可交互產(chǎn)品。

圖片來源:商湯絕影

與蔚來的車端世界模型不同,絕影的“開悟”主要用于生成高保真仿真數(shù)據(jù)。開悟可在仿真場景中生成11個攝像頭視角的時空一致視頻,時長可達150秒,分辨率達到專業(yè)級1080p。用戶可以在平臺上自由編輯場景的道路布局、參與體、天氣和光照等元素,一鍵生成風(fēng)險極高的場景或多樣化組合。當(dāng)前,絕影正與上汽旗下的智己汽車合作,利用這個平臺構(gòu)建端到端數(shù)據(jù)工廠,針對加塞、追尾等高價值場景批量生成訓(xùn)練數(shù)據(jù),并計劃推出覆蓋數(shù)百萬合成片段的場景庫。

在數(shù)據(jù)規(guī)模和效率方面,WorldSim?Drive數(shù)據(jù)集包含超過100萬段生成式駕駛片段,覆蓋50多種天氣與光照條件、200類交通標(biāo)識和300種道路連接場景,是迄今最大的自動駕駛生成數(shù)據(jù)集之一。這些合成數(shù)據(jù)保持多視角時空一致性,時長可達數(shù)分鐘,畫質(zhì)與真實數(shù)據(jù)一致。開悟的日生產(chǎn)能力僅用一塊A100 GPU就相當(dāng)于10輛真實車輛或100臺道路測試車輛的數(shù)據(jù)采集能力。目前,絕影已有20%的訓(xùn)練數(shù)據(jù)來自世界模型生成。

商湯絕影通過“開悟”世界模型搭建了數(shù)字世界到真實世界的橋梁:一方面在仿真平臺上支持文本或圖像提示,快速生成特定場景;另一方面與車企合作打造閉環(huán)數(shù)據(jù)工廠,用合成數(shù)據(jù)彌補長尾場景不足。

開悟的成功展示了世界模型在仿真數(shù)據(jù)生成中的力量,不僅降低數(shù)據(jù)采集成本,還能針對高風(fēng)險場景進行定制化訓(xùn)練,為自動駕駛提供可靠、安全的測試和訓(xùn)練環(huán)境。

四、世界模型 VS VLA:自動駕駛終局路線之爭

隨著大模型時代的到來,以語言大模型LLM為核心的視覺-語言-行動(VLA)模型開始在自動駕駛領(lǐng)域嶄露頭角,理想、小米和元戎都是堅定的VLA路線擁護者,在今年7月理想已經(jīng)開始率先推送量產(chǎn)的VLA版本。

VLA倡導(dǎo)將視覺輸入、自然語言理解與行動生成融為一個大模型,通過語言增強情境理解和推理能力。和世界模型相比存在顯著差異:

結(jié)構(gòu)與表示

推理路徑

能力與應(yīng)用

“世界模型VS VLA”的路線之爭仍將持續(xù)。世界模型更貼近自動駕駛的物理本質(zhì),VLA則憑借通識能力在長尾場景上具優(yōu)勢。最終的產(chǎn)業(yè)答案,很可能來自兩者的互補與融合。

最近AI領(lǐng)域的先驅(qū)李飛飛發(fā)表長文討論空間智能,她認為今天的大語言模型擅長抽象知識處理,但在物理世界上仍像“黑暗中的文字匠”,缺乏對三維環(huán)境、因果與動力學(xué)的扎實理解,難以安全地在現(xiàn)實世界中行動。通過想象、推理、創(chuàng)造與互動來理解世界,而非僅僅依賴語言描述,這正是空間智能的力量。

實現(xiàn)空間智能的答案是“世界模型”,能夠在語義、物理、幾何與動態(tài)等多重復(fù)雜世界(無論虛擬還是現(xiàn)實)中進行理解、推理、生成與交互。

她的觀點再次將世界模型推向AI領(lǐng)域的前沿,無論最終實現(xiàn)自動駕駛的技術(shù)路徑是什么,在通往終點的路上,世界模型一定會留下濃墨重彩的一筆。

本文系作者 HiEV大蒜粒車研所 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-03-26 23:08

國內(nèi)商品期貨夜盤收盤多數(shù)上漲,對二甲苯期貨主力合約漲1.95%

2026-03-26 23:07

部分船舶通過伊朗“管控系統(tǒng)”通行霍爾木茲海峽

2026-03-26 23:07

五一視界2025年營收增21%,發(fā)布全球首款“物理直覺”世界模型

2026-03-26 23:00

伊拉克南部油田產(chǎn)量暴跌8成

2026-03-26 22:59

華虹公司:2025年凈利潤3.77億元,同比下降1.04%

2026-03-26 22:49

日本本州東部遠海發(fā)生6.3級地震,震源深度10千米

2026-03-26 22:37

華虹半導(dǎo)體擬更名為“華虹宏力”,統(tǒng)一滬港兩地證券簡稱

2026-03-26 22:28

具身智能領(lǐng)域首個行業(yè)標(biāo)準(zhǔn)正式發(fā)布

2026-03-26 22:27

美國解除對白俄羅斯十余家實體制裁

2026-03-26 22:25

中國國航:2025年凈虧損17.7億元,同比大幅擴大

2026-03-26 22:12

興業(yè)銀行:2025年凈利潤774.69億元,同比增長0.34%

2026-03-26 22:08

國際奧委會明確:奧運女子組賽事僅限生理女性參加

2026-03-26 22:08

96個中央部門集中向社會公開預(yù)算

2026-03-26 21:58

Meta股價觸及2025年5月以來最低水平,最新下跌2.6%

2026-03-26 21:51

美團財報電話會:預(yù)計Q1餐飲外賣的單均虧損環(huán)比優(yōu)化幅度會好于Q4

2026-03-26 21:42

伊朗通過中間人回應(yīng)美15點?;鹛嶙h,提出明確前提條件

2026-03-26 21:41

國臺辦回應(yīng)臺灣民眾黨前主席柯文哲一審被判17年

2026-03-26 21:34

納斯達克中國金龍指數(shù)跌超2%

2026-03-26 21:31

美股開盤:三大指數(shù)集體低開,芯片存儲板塊普跌

2026-03-26 21:29

云南銅業(yè):2025年凈利潤同比下降7.31%,擬10派2.3元

掃描下載App