鈦媒體注:從1966年到2016年,正好恰恰過去了50年,過去的50年計算機視覺發(fā)展非???。今天計算機視覺是不是變成了很成熟、很完美的技術?在鈦媒體和《商業(yè)價值》主辦的移動互聯(lián)網(wǎng)創(chuàng)新大會(MIIC2016)上,xPerception創(chuàng)始人包英澤不這么認為(鈦媒體作者硅星聞曾介紹過包英澤創(chuàng)辦的公司見《這家做智能感知的公司,想要給你的家居設備都安上“眼睛”》)
在他看來,新的技術革命即將到來。手機之后的計算平臺有兩個方向,一種是VR、AR;另一種是智能機器人,而這兩者都需要計算機視覺技術做基礎。
歷經50年的發(fā)展,計算機視覺產生了諸多的應用。而包英澤則用特斯拉車禍事件,給我們講述這樣一個觀點:雖然計算機視覺技術并沒有發(fā)展到成熟的階段,但隨著應用市場的打開,新的機會與技術革新將馬上到來。
對于未來3-5年,他認為這個領域有三個方向值得注意:
計算機視覺有很多開源軟件包,可以解決很多問題,但是問題復雜與安全性要求高的需求,則會催生解決問題的專業(yè)團隊。
在移動化的設備里面,要以低能耗的方式進行復雜的算法,芯片一定是必經之路。
深度學習之后會產生什么樣的數(shù)學模型,解決計算機負責問題的終極框架到底是怎樣的。
以下是包英澤在2016MIIC移動互聯(lián)網(wǎng)創(chuàng)新大會上的演講實錄,經鈦媒體編輯:
手機是當今最主流的計算平臺,手機之前的計算平臺是PC,手機之后計算平臺是什么?
VR、AR可能會取代手機,他們是最接近我們日常生活的平臺。但是這種虛擬技術,其中存在很多技術細節(jié),技術難點。第一個是AR系統(tǒng)需要對房間進行準確的3D建模,這樣才能把物質展現(xiàn)給用戶;位置角度也要進行跟蹤,這樣才把虛擬世界正確的視覺呈現(xiàn)給大家。像是判斷你手指在空間的位置,這就需要AR系統(tǒng)中的計算機部分,以及對環(huán)境進行感知。如果沒有計算機視覺,就不可能有真正意義上的AR和VR。
另一種可能是智能機器人。智能機器人也需要通過攝像機對環(huán)境進行掃描,從而確認對自己的軌跡進行合理的規(guī)劃。在這個場景中,我們看到機器人平臺需要對房間進行3D建模,還需要檢測場景中動態(tài)物體,這樣確保百分之百的安全。
對于計算機視覺這個詞,我想下一個定義:它是一個過程,是真實世界的信息,經過傳感器的捕捉,再將抽象信息(包括事件、位置、大小等等)進行提取的過程。比如去海邊玩拍照片,照片用人類視角很容易看到大海、船只,而同樣一張照片,計算機只能看到一組抽象的數(shù)字。
計算機視覺技術風風雨雨50載,仍舊不能說成熟
大概十年前,包英澤在清華進行計算機研究的時候,很少有人提到這個詞,今天隨著新科技的普及,人們越來越多地談論起計算視覺。它不是最近才出現(xiàn)的黑科技,這個學科年齡比在座的各位都要大。
1966年,麻省理工大學教授突發(fā)奇想——計算機能否像人類一樣讀圖片?于是,他便給自己的研究生布置了這個課題,這個事件標致著計算機視覺的誕生。
計算機視覺首先被應用于軍事領域,在80年代開始應用于工廠,進行流水線上瑕疵品的檢測,隨著PC的普及,越來越多的應用走入我們生活。在座開車的都能記得,以前在進入停車場的時候,進門時候要拿一張卡片,出門的時候歸還,停車場以此來記錄停車時間。之后,進出的時候只需要拍兩張照片,后臺就直接識別出你停車時間。
進入2000年,計算機視覺遍地開花,舉兩個例子:一個是人臉的檢測和識別,用智能手機拍照的時候可以檢測出人臉,以此來確定焦距和視角;還有一個例子是二維碼掃描,一維碼五十年代就得到了發(fā)明和普及,照片中獲取二維碼,這是最近十年成熟的技術。最新的進展大家都非常熟悉,像是信息檢索,自動駕駛。
從1966年到2016年,正好恰恰過去了五十年,過去的五十年計算機視覺發(fā)展非??臁=裉煊嬎銠C視覺是不是變成了很成熟、很完美的技術?并不是。
比如說,藍天白云下,公路上有一輛白色的大卡車,計算機就可能說,這是一朵白云。大家可能都想到了這是一個慘劇:一輛特斯拉沒有檢測出的卡車,使得高速行駛的特斯拉司機當場死亡。
盡管計算機視覺技術并沒有發(fā)展到成熟的階段,但隨著應用市場的打開,新的機會與技術革新將隨之而來。
未來3-5年,計算機視覺領域將有三個變化值得關注
做為一個計算機視覺行業(yè)的從業(yè)者,講講我個人對未來三到五年的看法。
首先,計算機視覺有很多開源軟件包,但是隨著視覺的問題越來越復雜,以及我們對安全性的要求越來越高,復雜的問題一定要找專業(yè)的團隊來解決。比如解決攝像機運動軌跡的問題,你如果拿一個手機從一個房間走到另外一個房間,再回到原來的位置,生成了一條軌跡。把這個數(shù)據(jù)給Orb slam去分析,它所得出的軌跡就有所變化,而且和墻壁有很大的重疊。如果有一個機器人使用了這個Orb slam項目,出門的時候會撞到墻。
即使現(xiàn)在有許多開源的項目,但商用化的計算機視覺系統(tǒng)能在不同的平臺和不同的使用環(huán)境下反復測試對比,最終可以實現(xiàn)平均性能更加優(yōu)越,并且沒有重大安全隱患。復雜的問題與應用,一定要找專業(yè)的團隊去解決。這個領域會出現(xiàn)超過十億臺下一代測算平臺,新一代的智能手機,還有無人機。與這對應的技術有數(shù)百億的市場,計算機視覺領域將誕生出很多上市企業(yè)。
第二個關注的變化是芯片化。我們知道計算機視覺往往需要非常復雜的算法去解決,應用往往都是移動化的,例如移動化的設備,移動的機器人。在移動化的設備里面,要以低能耗的方式進行復雜的算法,芯片一定是必經之路。現(xiàn)在行業(yè)里面,大量團隊在進行算法的研發(fā),一些走的比較快的同行已經開始將成熟的算法芯片化了。這樣,除了算法的優(yōu)越程度以外,肯定還存在芯片的功耗與成本問題。
第三個關注的變化是理論上的,即深度學習之后會產生什么樣的數(shù)學模型。深度學習的缺點也是人盡皆知,它需要進行海量的資料的學習。曾經有這個領域的權威Davis Marr,在生前預言說,計算機是復雜的問題,最后會有單一理論框架使之得到解決。
深度學習不會是這種終極框架,還將有更強大的數(shù)學模型出現(xiàn)。它對人類影響也會是更深遠的,我們應該深刻關注理論上的變化,把最新的技術做成產品來解決實際的問題。(本文首發(fā)鈦媒體,由張霖根據(jù)包英澤在2016MIIC大會上的演講整理)
更多趣聞和爆料,關注鈦媒體微信號:鈦媒體(ID:taimeiti)
鈦媒體微信二維碼






快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論
自動識別的范圍。未來自動識別的應用將高度整合和堆積。