圖片來源:視覺中國
只需普通光學(xué)攝像頭就能構(gòu)建出你的“3D立體人像”,這是種什么體驗(yàn)?
人工智能平臺(tái)公司云從科技近日發(fā)布了其在3D人體重建技術(shù)上取得的重大突破。3月19日,作為“國內(nèi)CV(計(jì)算機(jī)視覺)四小龍”之一的云從科技(以下簡(jiǎn)稱云從)宣布,其基于單幀圖像的3D人體重建技術(shù)刷新了三項(xiàng)世界紀(jì)錄,這也是繼去年云從在3D人臉數(shù)據(jù)集上大幅刷新紀(jì)錄后,再次在此類3D重建技術(shù)上取得重要成果。
所謂的三項(xiàng)世界紀(jì)錄,指的是Human3.6M、Surreal和UP-3D三個(gè)數(shù)據(jù)集,是全球關(guān)于3D人體重建技術(shù)的權(quán)威數(shù)據(jù)集。榜單中的競(jìng)爭(zhēng)對(duì)手包括加州大學(xué)伯克利分校、賓夕法尼亞大學(xué)、Amazon和Adobe Research等知名企業(yè)、研究所與高校。
那么,這項(xiàng)“牛逼”的AI技術(shù)到底有哪些應(yīng)用呢?對(duì)于大眾而言,3D人體重建技術(shù)帶來的是全新體驗(yàn):
這意味著,只用美顏APP就可以完成高精度的全身“瘦身”;你站在鏡子前,商場(chǎng)的試衣鏡便可實(shí)現(xiàn)一秒換裝;如果放在電影工業(yè)的范疇來看,全新的3D人體重建技術(shù),甚至將超越今年熱映好萊塢科幻大片《阿麗塔》中所使用的視覺特效水平(鈦媒體曾對(duì)該片的特效技術(shù)有詳細(xì)介紹)。
在3D重建領(lǐng)域,誤差通常被作為算法能力的主要衡量指標(biāo),它指的是生成模型與實(shí)際圖像的差別。一般來說誤差越低,精度越高,技術(shù)的性能越好。
云從對(duì)鈦媒體透露,此次技術(shù)突破,“將原有最低誤差記錄大幅降低30%,使3D人體建模的結(jié)果更優(yōu)秀,更接近人體的實(shí)際情況”。以下為云從提供的最低誤差記錄的信息:
全身精度誤差在Surreal上從75.4毫米降低到52.7毫米;
關(guān)節(jié)精度誤差從55.8毫米降低到40.1毫米;
Human3.6M上的關(guān)節(jié)精度誤差從59.9毫米降低到46.7毫米;
除了誤差指標(biāo),流暢度也是評(píng)價(jià)技術(shù)效果的關(guān)鍵指標(biāo)。據(jù)云從透露,當(dāng)前人體模型的幀率已經(jīng)達(dá)到了200幀/每秒,相較之下,電影的幀率通常只有24幀/秒,即使對(duì)流暢度要求很高的電子游戲,達(dá)到60幀/秒就已經(jīng)非常流暢。在運(yùn)算速度上,人體建模的耗時(shí)也從上百毫秒降低到5毫秒,建模效率更高。
關(guān)鍵指標(biāo)取得重大突破,加速了3D人體重建的落地進(jìn)程,但這一概念在大眾眼中實(shí)屬陌生。云從所提出的單幀3D人體重建到底是什么?其革命性到底體現(xiàn)在哪里?
因?yàn)槿梭w有豐富的姿態(tài)和穿著,云從提出了一套全新的基于人體3D縱深預(yù)測(cè)的3D信息表征方式。該技術(shù)通過對(duì)三原色圖像(RGB,不含深度信息)進(jìn)行分析,預(yù)測(cè)人體的3D形態(tài)和姿勢(shì)。
這是3D人體重建從2D時(shí)代向3D時(shí)代的飛躍。
傳統(tǒng)的人體關(guān)鍵點(diǎn)檢測(cè)技術(shù)往往監(jiān)測(cè)的是2D的人體骨骼關(guān)節(jié)點(diǎn),即通過技術(shù)預(yù)測(cè)RGB圖像中人體的十幾個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo)。這種方式存在著不足,其一這樣捕捉的節(jié)點(diǎn)非常稀疏;其二,這樣捕捉的結(jié)果一般只包含2D平面的坐標(biāo)預(yù)測(cè),不能還原3D的深度信息,無法體現(xiàn)縱深感。
而基于單幀圖像的3D重建技術(shù)不僅能輸出骨骼關(guān)節(jié)點(diǎn)信息,更能同時(shí)預(yù)測(cè)大量人體表面的關(guān)鍵點(diǎn)信息,使預(yù)測(cè)結(jié)果更豐富。而且每個(gè)點(diǎn)的坐標(biāo)都是3D呈現(xiàn),能夠體現(xiàn)不同軀干的縱深信息。
人體關(guān)鍵點(diǎn)監(jiān)測(cè):從2D向3D進(jìn)化
值得注意的是,云從在新一代3D人體重建技術(shù)上,還強(qiáng)調(diào)了是“基于單幀圖像”。這與傳統(tǒng)技術(shù)大多需要“連續(xù)圖像序列”或“多視角圖像”產(chǎn)生了鮮明差異。
單幀圖像就是一張照片,只需要普通的光學(xué)攝像頭作為感知設(shè)備,就可完成人體重建。而傳統(tǒng)技術(shù)中對(duì)圖像要求更高,硬件上需要雙目攝像機(jī)或者結(jié)構(gòu)光攝像機(jī)等設(shè)備,在手機(jī)端等便攜設(shè)備上是不可能完成的事。
基于單幀圖像的3D重建技術(shù)降低了設(shè)備使用門檻,也對(duì)背后的技術(shù)提出了更難的挑戰(zhàn)。該技術(shù)需要從單幀圖像中推理出人體或人臉的3D形態(tài),并通過“光學(xué)透視”、“陰影疊加”等基本光學(xué)原理預(yù)測(cè)各個(gè)關(guān)鍵點(diǎn)在3D空間的位置和朝向,從而得到人體的姿態(tài)或表情信息。
云從科技對(duì)鈦媒體羅列了上述技術(shù)可能的落地場(chǎng)景。在C端的應(yīng)用上,如上文提到,在不需要結(jié)構(gòu)光的條件下,高精度全身瘦身可以通過手機(jī)App完成、并進(jìn)行動(dòng)畫合成操作;智能換裝也將成為普及性的體驗(yàn)。
其技術(shù)原理是,精度和顯示效果大幅提升,設(shè)備門檻得以降低,將推動(dòng)3D人體重建技術(shù)的落地步伐。
此外,還可以應(yīng)用于疑犯身份重建、醫(yī)療仿真肢體3D重建以及電影特效領(lǐng)域。
視覺盛宴的締造者《阿凡達(dá)》、《阿麗塔》等影片,不斷抬高著人們挑剔的審美品位。未來,如果3D人體重建技術(shù)應(yīng)用于電影特效制作,不僅會(huì)顛覆傳統(tǒng)的特效技術(shù),更會(huì)直接提升工業(yè)電影的制作水平。
《猩球崛起》CG特效
20世紀(jì)90年代,影視特效往往采用的是光學(xué)式動(dòng)作捕捉。在動(dòng)作捕捉中,演員要穿上帶有特定感應(yīng)器的緊身衣,感應(yīng)器會(huì)捕捉演員動(dòng)作并同步給電腦中的虛擬角色,使得虛擬動(dòng)作與真人動(dòng)作完全同步。鮮為人知的是,1996年卡梅隆在制作《泰坦尼克號(hào)》時(shí),沉船場(chǎng)景中的大多數(shù)乘客就都是CG人物。
2001年的《指環(huán)王》可謂是動(dòng)作捕捉技術(shù)發(fā)展的分水嶺;不過當(dāng)時(shí)的技術(shù)還停留在捕捉頭、四肢這樣較大身體部位的水平,CG人物的表情還需要手工制作。
自《阿凡達(dá)》開始,特效技術(shù)開始從“動(dòng)作捕捉”轉(zhuǎn)向“表情捕捉”,《阿麗塔》則是實(shí)現(xiàn)了從“動(dòng)作捕捉”到“表情捕捉”的徹底跨越。

《阿麗塔》CG特效圖
在此前接受鈦媒體專訪時(shí),好萊塢金牌特效團(tuán)隊(duì)“維塔數(shù)碼”曾闡釋了“表情捕捉”的優(yōu)勢(shì),“所謂表演捕捉,就是不局限于四肢打斗幾個(gè)固定散點(diǎn)的移動(dòng)捕捉,全身上下還增加了好幾倍的、更密集的感應(yīng)點(diǎn),也包括對(duì)面部表情的捕獲。”
在這類特效電影中,對(duì)人像進(jìn)行動(dòng)作和表情捕捉,需要用專業(yè)的特效設(shè)備和面部貼點(diǎn)來進(jìn)行。而3D人體重建技術(shù)顛覆了傳統(tǒng)的技術(shù),使得人體建構(gòu)更加流暢飽滿。根據(jù)云從科技提供的數(shù)據(jù),當(dāng)前3D人體重建技術(shù)能夠用6萬多個(gè)點(diǎn)完整描繪人體,在速度和精度上都有突破,人體模型建構(gòu)也會(huì)更精細(xì)。
這不僅能降低工業(yè)級(jí)3D動(dòng)畫合成的門檻,也將會(huì)對(duì)工業(yè)電影的特效帶來革命性的影響。
2018年10月,云從科技已完成 B+輪融資,金額超過 10 億元。自2015年正式成立以來,云從已完成 4 輪融資,累積融資額已超過35億元。(本文首發(fā)鈦媒體,作者/蘆依)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論