AIGC技術(shù)正從文本、圖像生成向更復(fù)雜的3D空間與視頻領(lǐng)域延伸,但現(xiàn)有模型普遍面臨兩大核心挑戰(zhàn):一是對物理世界空間結(jié)構(gòu)的理解不足,導(dǎo)致3D場景生成缺乏邏輯性;二是視頻創(chuàng)作中因視角切換引發(fā)的時空一致性問題。

“何時人工智能從數(shù)字世界走向物理世界呢?我們認(rèn)為空間智能就是這里面非常關(guān)鍵的橋梁。”群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌表示。

而對于空間智能來說,它的核心是讓AI真正理解物理世界的“語言”:要讓AI學(xué)會用“空間語言”描述世界,這是它走進物理世界的第一步。

上周,杭州“六小龍”之一的群核科技正式宣布開源新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen。這是中國企業(yè)首次面向全球開發(fā)者開放專注于3D室內(nèi)場景認(rèn)知與生成的大模型體系。

讓AI“讀懂”空間的幾何密碼

此次發(fā)布的兩款模型分別針對文章開頭所提的兩大痛點——SpatialLM 1.5通過“空間語言”實現(xiàn)3D場景的結(jié)構(gòu)化生成與交互,SpatialGen則依托3D高斯技術(shù)保障多視角圖像的空間連貫性。

前者生成的場景富含物理正確的結(jié)構(gòu)化信息,支持用戶通過對話交互系統(tǒng)SpatialLM-Chat進行可交互場景的端到端生成,能夠有效解決機器人訓(xùn)練數(shù)據(jù)難題;后者,專注于“生成與呈現(xiàn)”, 可根據(jù)文字描述、參考圖像和3D空間布局,生成具有時空一致性的多視角圖像。

據(jù)介紹,傳統(tǒng)多模態(tài)模型(如GPT-4V、通義千問VLM)通過將圖像切割為視覺Token與文本對齊,實現(xiàn)跨模態(tài)理解,但本質(zhì)仍是對2D信息的處理。即VLM能描述“這是一張沙發(fā)”,但無法理解類似“沙發(fā)長2米、距墻50厘米”之類的空間信息,更不能基于這些數(shù)據(jù)生成可編輯的3D場景。

SpatialLM 1.5的突破在于,它將空間關(guān)系編碼為“語言”,是非多模態(tài)的“語言模型”,它基于通義千問3小模型訓(xùn)練,通過“空間語言”指令實現(xiàn)3D場景的端到端生成。例如,用戶輸入“生成100平方米兩居室,主臥含帶扶手的老人床”,模型會輸出包含墻線坐標(biāo)、家具尺寸、物理參數(shù)的結(jié)構(gòu)化腳本,并自動匹配資產(chǎn)庫中的3D模型完成布局。

一個比較重要的維度就是空間理解。”周子寒解釋。傳統(tǒng)大模型生成的是自然語言描述,而SpatialLM輸出的是可直接用于渲染、仿真的空間代碼。這一能力也使其成為具身智能機器人訓(xùn)練的關(guān)鍵工具——群核科技現(xiàn)場演示顯示,基于SpatialLM1.5生成的家庭場景,機器人可自主規(guī)劃“從臥室取藥到客廳”的路徑,并規(guī)避障礙物。

能達到這樣的效果,與群核平臺自有的稀缺數(shù)據(jù)有很大關(guān)系。據(jù)介紹,3D數(shù)據(jù)的稀缺性是空間智能發(fā)展的核心瓶頸,互聯(lián)網(wǎng)上有百億級圖像文本數(shù)據(jù),但高質(zhì)量3D場景不足千萬級,且標(biāo)注成本極高。

“我最早是在NVIDIA做Cuda,出來之后發(fā)現(xiàn)用GPU來加速物理世界的渲染一件非常有意思的事情??峒覙反罅糠e累的數(shù)據(jù)是可以用來訓(xùn)練空間理解模型、空間生成模型等,這些模型又可以進一步強化具能力,逐漸形成了一個工具、數(shù)據(jù)、模型三個環(huán)節(jié)相互循環(huán)的數(shù)據(jù)飛輪。”黃曉煌介紹。

基于公司早期創(chuàng)辦的酷家樂這一全球最大的空間設(shè)計平臺,截至2025年6月30日,群核科技擁有包含超過4.41億個3D模型及超過5億個結(jié)構(gòu)化3D空間場景。

scaling law,在AI視頻模型上并不奏效

AI視頻模型即使有scaling law,我們也不認(rèn)為它能真正的理解現(xiàn)在的物理世界。”群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚杀硎尽?/p>

當(dāng)前AI視頻生成工具(如Sora、即夢)常因視角切換導(dǎo)致物體“瞬移”“變形”,例如,在生成一條讓高達跳舞的視頻時,其腿部的反向扭曲、模型的穿透、移動時背景的混亂等,都是很典型的AI視頻工具面臨的真正問題。

“本質(zhì)是它們基于2D圖像序列訓(xùn)練,不懂3D空間規(guī)則。它學(xué)會了如何讓上一幀圖像在視覺上變的更像下一幀圖像,不理解所謂的物理世界運行的基本邏輯。”龍?zhí)鞚烧f。也正因此,scaling law在AI視頻模型上似乎并不奏效。

群核此次開源的SpatialGen通過多視角擴散模型打破了這一局限。它以3D高斯場景為中間載體,輸入單張參考圖和布局圖,即可生成任意視角的圖像,且保證物體形狀、位置在不同幀中一致?,F(xiàn)場演示顯示,基于SpatialGen生成的12秒漫游視頻,第1秒與第12秒的窗戶、擺件位置完全吻合。

讓模型“先造世界,再拍視頻”,“如同虛擬攝像機,在3D世界內(nèi)拍攝,所以天然會具備空間邏輯。”這種方式使視頻生成效率成倍提升,且支持比如“從廚房直接跳轉(zhuǎn)到臥室”的非連續(xù)視角切換。

“我希望它生成某個視角的一張圖的時候,只要將這個視角指定,就會按照約束去生成。因為它是一個任意視角的生成模型,所以避免了視頻模型非常依賴時空一致性的局限,可以去跳躍著生成任何視角的圖片。”周子寒補充。

群核科技也正計劃基于SpatialGen年內(nèi)推出一款A(yù)I視頻創(chuàng)作工具,或許能夠成為全球首款深度融合3D能力的AI視頻生成Agent。“廣告從業(yè)者真的有可能不需要太過于昂貴的團隊和前期的資本投入就可以做出接近頂級水平的廣告。工業(yè)設(shè)計師可以在幾分鐘內(nèi)快速地為自己的產(chǎn)品完成一個demo,并且展示詳細的功能,”龍?zhí)鞚烧f。

現(xiàn)場,龍?zhí)鞚梢砸豢顕a(chǎn)香水為原型,生成“日式風(fēng)格下的落日光影”宣傳視頻,其在保持商品主體高保證還原的情況下,在復(fù)雜的運境和商品動效之下,依然保持了空間的一致性、畫面的合理性,內(nèi)容元素沒有崩壞。

基于視頻效果,這位香水主理人評價:“離香奈兒、迪奧有非常大的差距,但考慮到生成的時間成本和金錢成本,在目前是比較重大的突破了,對于一些廉價品牌而言,這些視頻已經(jīng)具備足夠marketing的屬性。”

開源,中國AI的“生態(tài)突圍”

不過,群核開源兩款空間智能模型,并非僅限于技術(shù)模型層面的突破。

“目前空間智能肯定還是在一個發(fā)展的初期階段的,我覺得任何一家公司都不可能獨享這個市場。”黃曉煌強調(diào),“所以我們在不斷地開源數(shù)據(jù)、模型,希望跟全世界最聰明的大腦,全世界最有創(chuàng)新能力的人一起將這個‘蛋糕’做大,這是我們戰(zhàn)略很重要的一部分。”

這在某種程度上也意味著,這家中國企業(yè)在空間智能領(lǐng)域,嘗試從技術(shù)研發(fā)邁向生態(tài)共建。

2018年,群核認(rèn)為海量數(shù)據(jù)是能夠訓(xùn)練出一些過去所不掌握的認(rèn)知能力,于是決定學(xué)習(xí)李飛飛的ImageNet,開源全球最大空間認(rèn)知數(shù)據(jù)集InteriorNet;今年3月,群核再次開源的SpatialLM 1.0,迅速登上Hugging Face趨勢榜前三。

目前,其開源策略已引發(fā)海外關(guān)注,上月群核開源全球首個3D高斯數(shù)據(jù)集InteriorGS,在Hugging Face數(shù)據(jù)集中排到第一。“它的作用是什么?過去自動駕駛領(lǐng)域的爭議在于,做空間認(rèn)知要不要激光雷達還是純視覺就行了?中國很多車廠是用激光雷達的,但二者能否統(tǒng)一?這個數(shù)據(jù)集開源之后,很多機構(gòu)跑過來跟我們討論3D高斯作為統(tǒng)一輸入好像是可行。”黃曉煌透露。

這種影響力背后是技術(shù)路線的差異化。與李飛飛團隊World Labs的“3D場景生成”不同,群核聚焦“可交互的功能場景”。周子寒評價,李飛飛團隊公布的Demo在大范圍漫游上表現(xiàn)不錯,但與其他業(yè)內(nèi)已推出的世界模型一樣,以3D表征為基礎(chǔ)的世界模型,都會在空間一致性上有所缺失。此外,在生成的物理屬性上,群核生成的場景不僅能看,還能讓機器人開門、取物,這是工業(yè)級應(yīng)用的關(guān)鍵。

“第一是真實感的全息漫游,第二是結(jié)構(gòu)化可交互,第三是復(fù)雜的室內(nèi)場景。”周子寒總結(jié)空間智能大模型的特點。基于此,周子寒也認(rèn)為,基于空間智能大模型體系,工業(yè)軟件領(lǐng)域曾經(jīng)面臨的“卡脖子”問題,中國企業(yè)有望探索出一條新路徑。

“傳統(tǒng)工業(yè)軟件的‘卡脖子’源于底層復(fù)雜的幾何算法,但空間大模型提供了新路徑。通過找一些增量方式,將原來在傳統(tǒng)軟件不太能涉及的領(lǐng)域,進行補齊,就有能力打造一個之前缺失的幾何內(nèi)核的部分。”周子寒表示,即SpatialLM通過自然語言生成場景,在后續(xù)的探索中,有可能繞過傳統(tǒng)CAD的復(fù)雜操作邏輯,“我們不做達索、Autodesk的替代品,而是創(chuàng)造‘AI原生’的設(shè)計工具——這就是彎道超車。”(本文首發(fā)鈦媒體APP 作者 |秦聰慧)‌

本文系作者 DeepWrite秦報局 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

15:55

靈心巧手變更為股份公司,增資至9.2億元

15:45

中金普洛斯REIT 2025年總收入4.23億元

15:44

極智嘉2025年營收31.71億元,經(jīng)調(diào)整凈利潤轉(zhuǎn)正

15:41

近5萬美國人排隊申請入籍加拿大

15:29

上期所:4月3日(星期五)晚上不進行夜盤交易

15:27

鄭商所:4月3日(星期五)當(dāng)晚不進行夜盤交易

15:26

崔東樹:2026年1-3月新能源車免稅目錄共有19977款,其中3月有391款新車型

15:14

長安汽車獲批L4級Robotaxi測試牌照

15:13

恒生指數(shù)公司與韓國交易所推出首個聯(lián)名港韓跨市場指數(shù)系列

15:12

國行版蘋果AI突然上線后又被撤回,蘋果回應(yīng):正在積極推進落地中國

15:11

優(yōu)信二手車天津倉儲大賣場試運營,全國線下網(wǎng)絡(luò)擴展至第六座

15:10

A股3月收官:三大指數(shù)集體下跌,軌道交通、交運設(shè)備板塊走強

15:05

歐洲主要股指開盤多數(shù)下跌,歐洲斯托克50指數(shù)跌0.15%

15:05

國內(nèi)商品期貨多數(shù)收跌,碳酸鋰跌近8%

14:54

提高準(zhǔn)入門檻,強制性產(chǎn)品認(rèn)證管理辦法征求意見

14:48

張雪機車銷售稱奪冠后兩三天內(nèi)訂單大漲,已排至6月

14:48

法國3月CPI同比增長1.7%,環(huán)比增長0.9%

14:47

法國2月PPI同比下降2.4%,環(huán)比下降0.2%

14:46

中東局勢緊張沖擊全球航運,大量日本二手車被困海上

14:44

席琳·迪翁生日當(dāng)天宣布回歸歌壇

掃描下載App