現(xiàn)有的計(jì)算機(jī)視覺分類與現(xiàn)實(shí)世界的場(chǎng)景之間存在相當(dāng)大的差距

當(dāng)以為生態(tài)學(xué)家想利用現(xiàn)有的CV技術(shù)來識(shí)別相機(jī)中所捕捉到的野生動(dòng)物時(shí),不出意外地,由于沒有足夠的訓(xùn)練數(shù)據(jù),系統(tǒng)失敗了……

更令人悲傷的是,在此類情境中,收集更多數(shù)據(jù)是非常不現(xiàn)實(shí)的。

對(duì)于一些瀕臨滅絕的野生珍稀動(dòng)物,人們往往要花很長(zhǎng)的時(shí)間,甚至要等上好幾年才能成功拍到一次照片。與此同時(shí),新的動(dòng)物物種不斷出現(xiàn),舊的動(dòng)物物種不斷離開。在自然界這個(gè)動(dòng)態(tài)系統(tǒng)中,識(shí)別對(duì)象的總分類數(shù)從來沒有固定過。

即使現(xiàn)有的計(jì)算機(jī)視覺技術(shù)在大眾類別上做得再好,比如精準(zhǔn)識(shí)別出人類和貓狗等,但對(duì)于這些不均衡的分類對(duì)象,現(xiàn)在的方法依然無能為力。

之所以出現(xiàn)這種問題,核心原因或在于:面對(duì)實(shí)際應(yīng)用時(shí),機(jī)器視覺的分類任務(wù)不應(yīng)該被作為單項(xiàng)任務(wù)來對(duì)待并解決,而應(yīng)該當(dāng)成一個(gè)整體來看待。即一個(gè)能夠?qū)ι贁?shù)擁有海量ImageNet數(shù)據(jù)集的常見類別,以及大多數(shù)罕見類別,都能夠進(jìn)行分類的實(shí)用系統(tǒng)。

要實(shí)現(xiàn)這一點(diǎn),就要求CV系統(tǒng)具備一種能力,能夠從幾個(gè)已知的事例中推導(dǎo)出單一類別的概念,并對(duì)一個(gè)從未見過的類別的實(shí)際圖例對(duì)應(yīng)上新的概念。這就不再是邏輯命題,而是智慧型的學(xué)習(xí)命題了。為了盡可能地消滅“次元壁”中存在的“視覺盲點(diǎn)”,OLTR開放長(zhǎng)尾識(shí)別框架應(yīng)運(yùn)而生。

OLTR,讓CV系統(tǒng)更全能

如上所述,“開放長(zhǎng)尾識(shí)別”(OLTR)的核心任務(wù)目標(biāo),就是讓系統(tǒng)能夠從長(zhǎng)尾數(shù)據(jù)和開放的分布式數(shù)據(jù)中進(jìn)行學(xué)習(xí),能夠在包括頭、尾和開放類的平衡測(cè)試集上表現(xiàn)出較好的分類精度。

也就是說,除了一些主流的樣本豐富的對(duì)象,對(duì)于數(shù)據(jù)匱乏的、分布廣泛導(dǎo)致出現(xiàn)頻率不均衡的物體,系統(tǒng)也能夠做到很好的識(shí)別。

顯然,有了OLTR的機(jī)器視覺會(huì)變得能力更全面,也更符合現(xiàn)實(shí)環(huán)境的需求。它的特殊之處,主要依靠視覺記憶能力來實(shí)現(xiàn)。

研究人員將圖像映射到一個(gè)特征空間,將圖像特征和記憶特征結(jié)合在一起,這樣視覺系統(tǒng)就可以基于封閉環(huán)境分類的學(xué)習(xí)度量,對(duì)開放世界中存在的新穎物體和長(zhǎng)尾類進(jìn)行理解。即使在缺乏觀察數(shù)據(jù)和特征的情況下,視覺記憶也能夠?qū)﹂_放類進(jìn)行理解并努力識(shí)別。

讓CV系統(tǒng)具備視覺記憶能力

實(shí)驗(yàn)結(jié)果顯示,記憶特征的加入,使得CV系統(tǒng)能夠更好地激活起視覺神經(jīng)元。比如,識(shí)別“公雞”這一長(zhǎng)尾類物體(位于下圖左上角cock)時(shí),具有記憶功能的CV系統(tǒng)已經(jīng)學(xué)會(huì)了將其轉(zhuǎn)換為“鳥頭”、“圓型”和“虛線紋理”的視覺概念,并將被普通CV模型錯(cuò)誤分類的圖片正確地識(shí)別了出來。

從內(nèi)存特性中注入視覺記憶特征的系統(tǒng)示例

在現(xiàn)實(shí)任務(wù)中,這種新方法也表現(xiàn)出了極強(qiáng)的開放性,能夠在不犧牲豐富類的前提下,對(duì)稀缺類別的識(shí)別實(shí)現(xiàn)明顯的改進(jìn)。

以前面提到的認(rèn)識(shí)野生動(dòng)物為例,對(duì)于那些圖像不超過40幅的種類,OLTR實(shí)現(xiàn)了從25%到66%的性能提升。

與目前大多數(shù)計(jì)算機(jī)視覺方案相比,OLTR顯然更符合數(shù)據(jù)自然分布的真實(shí)世界。那么,它的出現(xiàn)最有可能給哪些CV技術(shù)帶來改變呢?

檢測(cè)、分割:CV問題的新解法

可以明確的是,OLTR的出現(xiàn),解決了CV領(lǐng)域最為經(jīng)典的問題之一——分類(classification)。那么,自然也就間接影響了分類問題的諸多應(yīng)用領(lǐng)域。其中,比較多的就是目標(biāo)檢測(cè)和圖像分割。

先說說目標(biāo)檢測(cè)。

目標(biāo)檢測(cè)已經(jīng)在諸多產(chǎn)業(yè)中都有應(yīng)用,簡(jiǎn)單的論文也越來越難發(fā)表了,比如手機(jī)拍照中用一個(gè)框來定位人臉,或者是智能監(jiān)控中的人體定位,都屬于目標(biāo)檢測(cè)的范疇。

但關(guān)于它的技術(shù)探索還遠(yuǎn)沒有達(dá)到勸退科學(xué)家的程度,這是因?yàn)?,目?biāo)檢測(cè)算法目前還存在著不少亟待突破的難點(diǎn):

比如數(shù)據(jù)標(biāo)注的巨大成本,能不能通過更有小弟分類來解決;小規(guī)模數(shù)據(jù)的監(jiān)督學(xué)習(xí)怎樣才能更有效地提升精度;對(duì)單圖像單類別場(chǎng)景進(jìn)行弱監(jiān)督多類檢測(cè)學(xué)習(xí)等等。

這些都是應(yīng)用場(chǎng)景中比較需要關(guān)注的問題,恰好也是OLTR能夠帶來改變的地方。

再說圖像分割。簡(jiǎn)單來說就說輸入一張圖片,然后對(duì)每一個(gè)像素點(diǎn)都進(jìn)行分類標(biāo)記,則完成了對(duì)整個(gè)圖片的分割。

比如深度學(xué)習(xí)對(duì)醫(yī)學(xué)影像進(jìn)行解讀和診斷,自動(dòng)駕駛汽車區(qū)分人、車、障礙物等,就采用了語義分割的技術(shù)。

但該類算法目前面臨著三大難題:一是計(jì)算成本高,要保證準(zhǔn)確率,需要的存儲(chǔ)空間和數(shù)據(jù)都非常龐大。二是計(jì)算效率低,由于需要對(duì)每個(gè)像素塊進(jìn)行計(jì)算卷積,造成了很大程度的重復(fù)和算力浪費(fèi);三是性能桎梏,受像素塊的限制,感知神經(jīng)元往往只能提取一些局部特征,從而影響分類識(shí)別的準(zhǔn)確率。

節(jié)約計(jì)算量、盡可能考慮全局信息、高性能分類,是圖像分割未來迭代的重點(diǎn)。

此時(shí),OLTR的優(yōu)勢(shì)就展現(xiàn)出來了。

首先,它用增強(qiáng)視覺記憶的方式,幫助CV系統(tǒng)在頭部類別的基礎(chǔ)上完成尾部、開放類別的特征分類與學(xué)習(xí),這意味著可以告別超大規(guī)模的數(shù)據(jù)集,通過小樣本的無監(jiān)督學(xué)習(xí)一樣能夠達(dá)到同樣的高精度性能,降低了計(jì)算機(jī)視覺的應(yīng)用和訓(xùn)練成本。

其次,由于OLTR具有通用化、整體性的分類能力,使得CV系統(tǒng)能夠在現(xiàn)實(shí)環(huán)境中表現(xiàn)的更好,尤其是面對(duì)一些出現(xiàn)頻率低、難以進(jìn)行監(jiān)督訓(xùn)練的物體時(shí),系統(tǒng)能夠根據(jù)以往的“經(jīng)驗(yàn)”為其賦予新的視覺概念并識(shí)別出來。對(duì)于性能要求極高的自動(dòng)駕駛、醫(yī)療診斷等應(yīng)用來說,無疑是雪中送炭。

總而言之,OLTR的出現(xiàn),將給CV算法、軟件與產(chǎn)業(yè)應(yīng)用都帶來不小的改變。但其勢(shì)能有多大,還需要有越來越多的開發(fā)者和企業(yè)開始嘗試用其解決現(xiàn)實(shí)問題,逐步迭代升級(jí),后續(xù)想必還會(huì)有不少驚喜。

即使是習(xí)以為常的技術(shù),也有自我思考和蝶變的可能。身處時(shí)代變革中心的我們,不妨共同期待一下CPVR 2019還有哪些創(chuàng)造。

本文系作者 腦極體 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容
  • 有水平好文章!

    回復(fù) 2019.05.22 · via android

快報(bào)

更多

14:30

3月31日全國(guó)農(nóng)產(chǎn)品批發(fā)市場(chǎng)豬肉平均價(jià)格為15.31元/公斤,比昨天下降1.0%

14:25

工信部:前2個(gè)月我國(guó)集成電路設(shè)計(jì)收入636億元,同比增長(zhǎng)15.7%

14:23

工信部:前2個(gè)月我國(guó)軟件業(yè)務(wù)收入21534億元,同比增長(zhǎng)11.7%

14:17

聯(lián)合利華與味可美就食品業(yè)務(wù)進(jìn)行深入談判,最早于今日達(dá)成協(xié)議

14:16

南向資金凈買入額達(dá)50億港元

14:02

英國(guó)第四季度GDP年率終值為1%

13:58

吉利旗下沃飛長(zhǎng)空增資至3.6億

13:55

瑞銀:預(yù)計(jì)到年底金價(jià)將逐漸回落,未來幾年將走低

13:54

光纖概念震蕩回升,特發(fā)信息漲停

13:51

高盛:參考1990年石油危機(jī),美聯(lián)儲(chǔ)終將降息

13:50

創(chuàng)新藥概念午后再度活躍,海創(chuàng)藥業(yè)漲超11%

13:50

支付寶發(fā)布國(guó)內(nèi)首個(gè)“支付集成Skill”

13:46

騰訊WorkBuddy小程序上線,支持"云端+本機(jī)"雙模式運(yùn)行

13:39

寧波商業(yè)航天產(chǎn)業(yè)基地項(xiàng)目將于4月開啟招標(biāo),預(yù)計(jì)總投資額86.6億

13:39

滬深京三市成交額超1.5萬億元,較上日此時(shí)放量62億元

13:29

瑞銀:中國(guó)市場(chǎng)調(diào)整或已過度,優(yōu)質(zhì)AI股票迎來布局窗口

13:24

北京消費(fèi)品以舊換新政策持續(xù)落地,帶動(dòng)銷售額約50億元

13:23

全國(guó)新能源汽車動(dòng)力電池溯源信息平臺(tái)正式啟動(dòng)

13:22

深圳:規(guī)模建設(shè)先進(jìn)級(jí)智能工廠

13:20

摩托車概念異動(dòng),宏昌科技走出20cm2連板

1

掃描下載App