免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看

【鈦坦白】第四范式陳雨強(qiáng):人工智能在工業(yè)界應(yīng)用的必經(jīng)之路

如何獲得一個人工智能系統(tǒng)?如何讓一個人工智能系統(tǒng)在公司內(nèi)部被更廣泛地使用?如何讓一個人工智能系統(tǒng)有更好的機(jī)制?如何讓人工智能系統(tǒng)進(jìn)入到更多的行業(yè)中?

在鈦媒體Pro專業(yè)用戶和付費(fèi)用戶專享的“鈦坦白”在線課堂第33期,我們再次請來三位鈦客分享對機(jī)器學(xué)習(xí)的思考 。本期鈦客之一、第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng),曾在 NIPS、AAAI、ACL、SIGKDD 等頂級會議上發(fā)表論文,并獲得了 APWeb 2010 Best Paper Award,在KDD Cup 2011名列前三。在百度鳳巢任職期間,陳雨強(qiáng)主持了世界首個商用深度學(xué)習(xí)系統(tǒng);在今日頭條期間,陳雨強(qiáng)主持了全新的信息流推薦與廣告系統(tǒng)的設(shè)計實(shí)現(xiàn)。

本文節(jié)選自陳雨強(qiáng)在鈦坦白的分享。如果您還不是鈦媒體Pro用戶,希望查看鈦坦白所有干貨,進(jìn)入鈦坦白九個專業(yè)群交流,并查看更豐富的專業(yè)數(shù)據(jù)和信息,可點(diǎn)擊:http://www.chcmb.cn/pro 注冊。

以下根據(jù)陳雨強(qiáng)在鈦坦白的分享實(shí)錄整理:

大家晚上好,我是陳雨強(qiáng),現(xiàn)在在第四范式負(fù)責(zé)人工智能算法的研究和開發(fā)相關(guān)的工作。今天我要跟大家分享的題目是《人工智能在工業(yè)界應(yīng)用的必經(jīng)之路》,分享一下我之前在工業(yè)界的經(jīng)歷,希望和大家有一些思想上的碰撞。

人工智能正進(jìn)入更多產(chǎn)品、企業(yè)、行業(yè)

最近人工智能在工業(yè)界越來越火,過去五年之間人工智能的應(yīng)用是以指數(shù)級在上升,不管在公司內(nèi)部還是行業(yè)之間,人工智能變成一個炙手可熱的名詞。從公開資料上可以看到,谷歌在2012的時候,其實(shí)跟Facebook一樣都只有很少量的一些應(yīng)用使用了人工智能技術(shù),比如說在他們最當(dāng)家的那些搜索或者是Feed流上使用的這些技術(shù),但是到2016年Q2的時候,谷歌已經(jīng)有超過2000家的應(yīng)用使用了人工智能技術(shù),而在Facebook里已經(jīng)有超過17個大的團(tuán)隊,25%以上的工程師正在使用人工智能。也就是說,在互聯(lián)網(wǎng)的這些巨頭里面,人工智能的影響力正在從少數(shù)幾個產(chǎn)品迅速的擴(kuò)展到各種各樣的產(chǎn)品線上。

還有一個比較有意思的現(xiàn)象,就是人工智能在工業(yè)界的影響會越來越大,熱詞正從“移動+”“互聯(lián)網(wǎng)+”到“AI+”轉(zhuǎn)變。之前處于跑馬圈地的時代,所以說有“移動+”和“互聯(lián)網(wǎng)+”作為渠道,能讓傳統(tǒng)的實(shí)體行業(yè)煥發(fā)新的一春,但是等到流量的紅利已經(jīng)到達(dá)了一定的邊界的時候,我們急需一些新的方式能讓增長保持持續(xù)。

AI是下一個增長的點(diǎn),所以傳統(tǒng)的“互聯(lián)網(wǎng)+”的公司紛紛轉(zhuǎn)向“AI+”,比如說滴滴、美團(tuán),小米,他們擁有很多的數(shù)據(jù),他們現(xiàn)在也在紛紛建立研究院,研究這些數(shù)據(jù)怎么樣能產(chǎn)生更大的價值。比如美圖,它背后有大量的照片,所以他們也可以成為非常優(yōu)秀的人工智能公司。除此之外,還有一些天生就是人工智能與行業(yè)結(jié)合的公司,比如說人工智能加上新聞就是頭條,人工智能加上機(jī)器人就是大疆這樣的公司。

給大家分享之前我介紹一下自己的經(jīng)歷。AI大潮從2001年開始呈指數(shù)級的上升,非常有幸我趕上了這波的大潮,當(dāng)時在學(xué)校里,我主要做的是遷移學(xué)習(xí)方面的研究,在NIPS和AAAI等頂會上有比較多的論文發(fā)表,然后到了工業(yè)界之后,我發(fā)現(xiàn)其實(shí)看到的問題和現(xiàn)在有很大的不同。

我畢業(yè)之后首先去的是百度,在百度主要負(fù)責(zé)的是搜索廣告系統(tǒng)——鳳巢系統(tǒng),這個階段是解決一個公司的一個問題,就是怎么提高廣告點(diǎn)擊率,當(dāng)時做的事情偏純技術(shù),我主要做的是如何將上千億特征的機(jī)器學(xué)習(xí)系統(tǒng)變成一個深度學(xué)習(xí)的系統(tǒng),這也是當(dāng)時我們所知道的世界上第一個把深度學(xué)習(xí)應(yīng)用到商業(yè)變現(xiàn)上的一個成功的系統(tǒng)。

之后我去了今日頭條,在頭條和百度遇到的問題其實(shí)并不太一樣,百度鳳巢里面遇到的問題主要是搜索廣告,在頭條里我會遇到很多的問題,比如說主信息流推薦、小頻道推薦、視頻推薦、信息流廣告,還有評論排序等等非常非常多的應(yīng)用和業(yè)務(wù),這樣的應(yīng)用和業(yè)務(wù)對我來說最大的感受是,我發(fā)現(xiàn)了人工智能需要更緊密地和產(chǎn)品、應(yīng)用相結(jié)合。我在頭條除了做了一個大規(guī)模的機(jī)器學(xué)習(xí)系統(tǒng),能讓它有個性化的推薦效果之外,還有一個很重要的事情,就是設(shè)計了一套機(jī)制,能夠讓機(jī)器學(xué)習(xí)系統(tǒng)發(fā)揮最大的效能。打個比方來說,機(jī)器學(xué)習(xí)系統(tǒng)是一個汽車的引擎,而我們設(shè)計的就是一個傳動系統(tǒng),有了一個比較好的傳動系統(tǒng),才能把機(jī)器學(xué)習(xí)的能力發(fā)揮到極至。

離開了頭條之后,我到了第四范式,在第四范式我面臨的行業(yè)更加多種多樣。不止是新聞行業(yè)了,可能是金融、電信、互聯(lián)網(wǎng),包括各種各樣的問題,有獲客、風(fēng)控、營銷、推薦、排序等很多很多的問題。所以在這個地方,我遇到的新問題是,怎么樣能把我在過去擁有的人工智能的知識應(yīng)用到各行各業(yè)。

從解決一個公司的一個問題,到解決一個公司的很多問題,到解決各行各業(yè)的各種問題,這個經(jīng)歷給了我比較多的思考,比方說如何做一個人工智能系統(tǒng),如何讓一個人工智能系統(tǒng)更加廣泛的在一個公司內(nèi)部被使用,如何讓一個人工智能系統(tǒng)有更好的機(jī)制,以及如何讓人工智能系統(tǒng)進(jìn)入到更多的行業(yè)之內(nèi)。

人工智能成功的五個條件

為什么人工智能在最近一段時間非?;?,而不是更早的比方說十年前,二十年前非?;鹉?,為什么AlphaGo能打敗李世石,在2016年而不是更早呢,我們直觀地認(rèn)為,因?yàn)樗惴ǖ膭?chuàng)新,因?yàn)槌霈F(xiàn)了深度學(xué)習(xí),因?yàn)槌霈F(xiàn)了DQN這樣新的算法,但是這只是一部分原因。國內(nèi)外很多專家總結(jié)出了人工智能成功的五大條件,我這里跟大家分享一下:

  • 邊界清晰。就是說對于比如說下圍棋這樣的問題來說,我們需要做的是一個19×19的棋盤上,黑白兩方輪流下子,最后看誰圍的空多,誰就贏這樣的一個問題。如果我們把棋盤的大小變成20×20,或者我們改變了黑白兩種子的顏色,有黑白紅三種顏色,或者說我們改變了圍棋的規(guī)則的話,這都會導(dǎo)致AlphaGo失效。
  • 充足的外部反饋。外部的反饋其實(shí)包括兩點(diǎn)因素,第一點(diǎn)我們需要有外部告訴他是輸還是贏,不斷的有外部的棋手跟他進(jìn)行對戰(zhàn),或者是自我的博奕,能有輸贏,外部的反饋才會讓他不斷的進(jìn)步。第二點(diǎn)這個系統(tǒng)本身也需要不斷的自我更新,適應(yīng)外部的反饋。
  • 計算資源。雖然說最近的算法有了非常大的進(jìn)步,但是計算資源也是產(chǎn)生智能非常關(guān)鍵的一點(diǎn)。最近業(yè)界在分布式計算的成功,讓我們相對于幾十年前有了一個技術(shù)上巨大的飛躍。舉個非常有趣的例子,當(dāng)時AlphaGo描述他的棋力的時候,都使用的是他使用的硬件資源來描述他的棋力,比方說用單機(jī)版的AlphaGo和更高智能所謂多機(jī)并行的AlphaGo,從這個地方可以看出,計算資源對于人工智能的高低起著至關(guān)重要的作用。
  • 頂尖的數(shù)據(jù)科學(xué)家和頂尖的人才。強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)最近被重新提出,需要非常多的科學(xué)家的大量的工作,這些算法才能真正的被推行?,F(xiàn)在在圍棋、語音和圖像上面這些技術(shù)都獲得了非常廣泛的長足的進(jìn)步,那在其他的領(lǐng)域,仍然需要非常多的科學(xué)家做很多的研究,能讓這些技術(shù)能真正的進(jìn)入各行各業(yè)。
  • 大數(shù)據(jù)。這個其實(shí)是AlphaGo成功的關(guān)鍵。當(dāng)時KGS流行,在KGS上有數(shù)十萬盤高手對弈的棋譜,如果沒有這些數(shù)據(jù),AlphaGo絕對不可能在這么短時間之內(nèi)擊敗人類。

這些要素總結(jié)起來有三點(diǎn):一方面我們需要有很好的技術(shù),包括計算資源和大數(shù)據(jù),一方面是業(yè)務(wù)邊界要清晰,要有反饋,另外一方面我們需要有人,我們需要有很好的科學(xué)家,需要有很好的場景,能讓我們使用上這個人工智能。

如何獲得一個好的機(jī)器學(xué)習(xí)系統(tǒng)?

首先說說什么是好的機(jī)器學(xué)習(xí)系統(tǒng)。好的機(jī)器學(xué)習(xí)系統(tǒng)一定是可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)??蓴U(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)并不等于可擴(kuò)展的系統(tǒng),這里面最大的區(qū)別是什么呢?最大的區(qū)別就是,可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)一方面數(shù)據(jù)的處理的吞吐隨著集群和機(jī)器數(shù)量的增加而增加,這是傳統(tǒng)的可擴(kuò)展系統(tǒng);而另一方面可擴(kuò)展機(jī)器學(xué)習(xí)系統(tǒng)指的是智能的水平和體驗(yàn)的壁壘,隨著業(yè)務(wù)和數(shù)據(jù)的增加而增加,這個可能是機(jī)器學(xué)習(xí)最不可替代的價值所在。

比如,過去要建立競爭壁壘主要是通過業(yè)務(wù)的創(chuàng)新,行業(yè)的跑馬圈地,通過新的渠道來提升效率。這種方式之中,對于產(chǎn)品本身來說是相對很容易被抄襲的,而資本的投入、運(yùn)營的強(qiáng)度和渠道是否完整是整個公司成功的關(guān)鍵。但是隨著數(shù)據(jù)和AI的普及現(xiàn)在有了一個新的方式,就是通過時間和數(shù)據(jù)創(chuàng)造壁壘。

比如現(xiàn)在的搜索引擎,即使有人有了百度全部的代碼,也很難做出一個超過百度的體驗(yàn)水平的搜索引擎,因?yàn)榘俣葥碛凶罱耆袊鲜畠|人所有的搜索數(shù)據(jù)。如果沒有了這些數(shù)據(jù)的話,即使有同樣的算法,也沒有辦法得到同樣的體驗(yàn)水平。從這個角度上來說,將來的競爭壁壘,將不僅僅只是在我們的業(yè)務(wù)上,更會在我們的數(shù)據(jù)上,有了更多的數(shù)據(jù)我們就可以通過人工智能產(chǎn)生更高的壁壘,然后拉開更大的差距。

那怎樣獲得一個高智能水平的可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)呢?1960年代到1990年代,Vapnik 和 Chervonenkis提出了“VC維”理論,形式化地描述了機(jī)器學(xué)習(xí)算法對復(fù)雜函數(shù)擬合的能力。“VC維”類似人腦內(nèi)的神經(jīng)元,有越多的神經(jīng)元代表這個人越聰明。但有越高的智商不一定會有越高的成就,還有一個很關(guān)鍵的因素就是你需要有很多的經(jīng)歷,只有那些智商比較高同時又很多經(jīng)歷的人才能悟出很多的道理,在機(jī)器學(xué)習(xí)“VC維”也是講的這么一個道理。

如下圖,過去的數(shù)據(jù)不是很大,所以隨著我們的迭代的增加,我們的訓(xùn)練損失函數(shù)在不斷的下降,我們測試損失函數(shù)先會下降然后會上升,這個地方我們需要控制VC維,讓模型不要共擬合。這好比你是一個比較聰明的孩子,很小的時候不能讓你過度地思考,因?yàn)槟愕木Ρ容^少,所以非常容易誤入歧途。其實(shí)比較好的做法是上方右側(cè)這幅圖,也就是我們使用VC維比較低的模型,讓訓(xùn)練的損失和測試的損失函數(shù)同時的下降,這是我們認(rèn)為比較好的一個模型。

當(dāng)然這只是故事的一半,隨著時代的不斷的發(fā)展,我們會發(fā)現(xiàn)數(shù)據(jù)會越來越多,如果我們把橫軸替換成數(shù)據(jù)這個維度,如下方這幅圖,在數(shù)據(jù)比較小的時候,低VC維的模型比高VC維的模型效果好,因?yàn)楦遃C維的模型會over-fitting,但是隨著數(shù)據(jù)越來越多,高VC維的效果會不斷提升,而低VC維系統(tǒng)會達(dá)到一個上階,這就是所謂的under-fitting的問題。當(dāng)然這只是故事的一半,隨著時代的不斷的發(fā)展,我們會發(fā)現(xiàn)數(shù)據(jù)會越來越多,如果我們把橫軸替換成數(shù)據(jù)這個維度,數(shù)據(jù)從小到大這么一個過程,我們會發(fā)現(xiàn),下方這幅圖就是有兩條曲線。其中第一條曲線是說,過去的曲線是這條over-fitting的曲線,在數(shù)據(jù)比較小的時候,我們低VC維的模型比高VC維的模型效果好,因?yàn)楦遃C維的模型會over-fitting,但是隨著數(shù)據(jù)越來越多的時候,高VC維的效果會不斷提升,而低VC維系統(tǒng)會達(dá)到一個上階,這就是所謂的under-fitting的問題。

在將來大數(shù)據(jù)的時代,under-fitting可能是需要更關(guān)注的一個問題,因?yàn)閡nder-fitting會限制你使用大數(shù)據(jù),以及限制數(shù)據(jù)的價值的體現(xiàn)。所以說在大數(shù)據(jù)的時代里面,我們強(qiáng)調(diào)可擴(kuò)展的概念,智能水平、模型的效果應(yīng)該隨著數(shù)據(jù)的增加而不斷的增加,而不是隨著數(shù)據(jù)的增加達(dá)到一個瓶頸,我們要設(shè)計的系統(tǒng)應(yīng)該是高VC維的系統(tǒng)。

從模型角度、特征角度提高VC維

我們知道機(jī)器學(xué)習(xí)等于數(shù)據(jù)+特征+模型,如果說我已經(jīng)有了很多的數(shù)據(jù),提升VC維的途徑就只有兩條——從特征的角度和從模型的角度。

我們把特征分成兩類,一類叫做宏觀特征,描述的統(tǒng)計類特征,比如說整體的點(diǎn)擊率,或者整體統(tǒng)計系統(tǒng)這樣的特征;另一類特征是微觀特征,最典型的微觀特征可能是ID類的特征,每個人都會有這樣的特征,每個物品也會有一個ID,然后人和物品的組合也會有這樣的ID類特征;相應(yīng)的模型也會分成兩類,一類是簡單的模型,比方說線性模型,另一類是復(fù)雜模型,比如說深度學(xué)習(xí)模型。

這里我們引入機(jī)器學(xué)習(xí)的四個象限的概念:

第一象限是簡單模型加上宏觀特征,這是我們傳統(tǒng)的專家系統(tǒng)和統(tǒng)計模型所在的范疇,大家可能比較熟悉的一些傳統(tǒng)的機(jī)器學(xué)習(xí)數(shù)據(jù)集比如說UCI就是典型的這個象限內(nèi)的。這大概是七八十年代的數(shù)據(jù)集,每個數(shù)據(jù)集里面有一千個左右的訓(xùn)練數(shù)據(jù),特征維度也不高,分的類數(shù)也并不多,在這樣的一個數(shù)據(jù)集里面,統(tǒng)計模型會比較盛行,他主要解決的問題是怎么樣找出特征之間的關(guān)系,以及各自的關(guān)聯(lián)度。

第二象限是簡單模型加上復(fù)雜特征,這里面最成功的案例可能就是谷歌的Adwords。谷歌的Adwords里面有上千億的特征,取得了非常大的成功,給谷歌帶來了很多的收益,現(xiàn)在占據(jù)了谷歌70%以上的收入。同時谷歌的展示廣告也使用了同樣的技術(shù),并且占據(jù)剩下20%的收入。這樣的模型現(xiàn)在不僅是在谷歌,在整個互聯(lián)網(wǎng)廣告中都是被使用的最廣泛的一個技術(shù)。

第三象限是使用復(fù)雜的模型、宏觀的特征,這里最典型的代表是雅虎news和bing這樣的系統(tǒng),bing的廣告在2013年提出他們的BPR模型,來去刻畫每個特征的知信度,雅虎也是第三象限最忠實(shí)的支持者之一,大家所熟悉的COEC就來自于這樣的模型,雅虎還設(shè)計了很多增強(qiáng)學(xué)習(xí)的機(jī)制,比如說多臂老虎機(jī),這也是這個里面最成功的應(yīng)用之一。

第四象限是復(fù)雜模型和微觀特征,現(xiàn)在還是一個非常熱門的研究領(lǐng)域,里面最難的一個問題是如何在這么大規(guī)模的特征情況下,使用非線性模型。計算量是一個很大的一個難點(diǎn),比方說如果我有上千億的特征,我的節(jié)點(diǎn)有上千個,我可能需要上萬億甚至更多的參數(shù),才能保存下來這個模型,這個可能不管是從內(nèi)存上還是計算上都是不可接受的,所以這是一個非常熱門的研究領(lǐng)域,非常多的研究機(jī)構(gòu)正在這個方面進(jìn)行嘗試。

我們現(xiàn)在講一下如何沿著第三象限就是復(fù)雜模型和宏觀特征這條路來優(yōu)化模型。這條路主要是由學(xué)術(shù)界主導(dǎo),這樣的模型主要來自于 ICML、NIPS、ICLR這樣的會議,非線性有三把寶劍分別是Kernel、Boosting、Neural Network。Boosting最成功的是現(xiàn)在熟知的GBDT,Kernel比較成功的是SVM里面流行的那個RBF Kernel,Neural network比較流行的現(xiàn)在最成功的深度學(xué)習(xí)。現(xiàn)在科學(xué)家為了實(shí)驗(yàn)的方便,對工程的實(shí)現(xiàn)能力要求并不是特別的高,大部分的模型是單機(jī)科學(xué)家在做,要解決的實(shí)際問題是數(shù)據(jù)分布式和降低分布式通信帶來overhead這樣的問題。

  • 從模型角度提高VC維

工業(yè)界怎么根據(jù)特定應(yīng)用來優(yōu)化模型呢?主要的思路是:先觀察問題,得到一些思考和假設(shè),然后我們把思考和假設(shè)通過建模的方式加入新的結(jié)構(gòu)和參數(shù),重新擬合我們的數(shù)據(jù),最后得到一個新的模型和新的驗(yàn)證。

以時序動態(tài)的協(xié)同過濾為例,我們這里引用的是Koren、Yehuda發(fā)表的論文Collaborative filtering with temporal dynamics,這是這個領(lǐng)域被引用最多的一篇經(jīng)典論文。在這篇論文里面,我們首先有一個低秩的假設(shè),我們認(rèn)為一個矩陣是被分解成兩個更低維的矩陣相乘的結(jié)果。就比方說圖上的這個4×4的矩陣就被分解為了兩個,一個4×2的矩陣,一個2×4的矩陣,這兩個低維的矩陣一個是user的隱變量,一個是Item的隱變量。

靠下位置作者給出的圖,是作者發(fā)現(xiàn)的打分的問題,比如MDB電影的打分會隨著時間的推移而不斷地上升,所以他設(shè)計了一系列的線性模型來擬合這樣的趨勢。他會設(shè)計一個User打分的時間,第一次打分的時間的偏置乘一個斜率是他打分的偏置,同時他會對每一個電影設(shè)計這樣的打分的偏置,考慮到每個Item隨著時間的影響受到的打分的波動。

在第三個公式里面你可以看到,時間的波動不會是一個純的線性的關(guān)系,所以作者用非線性的方式進(jìn)行分段的擬合,但是不管怎么說,這樣一個模式是比較清晰的,也就是說我們首先觀察數(shù)據(jù),從數(shù)據(jù)中得到一些假設(shè),然后根據(jù)假設(shè)設(shè)計一個模型,這個模型會有幾個未知的參數(shù),我們通過機(jī)器學(xué)習(xí)的方式擬合這樣的參數(shù),最后得到一個模型,在新的數(shù)據(jù)上進(jìn)行驗(yàn)證,看它的效果如何。

  • 從特征角度提高VC維

這方面工作主要是工業(yè)界主導(dǎo)的,比較有意思的成果主要發(fā)表在ADD、ADKDD或者WWW這樣一些學(xué)術(shù)會議上,這些模型相對來說比較簡單粗暴,基本上都是LR。

沿著特征這條路優(yōu)化的特點(diǎn)就是模型一定要做成分布式的,這個在工程上的挑戰(zhàn)是非常非常大的。在這條路上比較成功的典型公司,比如谷歌使用了上千億的特征,百度也使用了上千億的特征,這些公司都是是從最細(xì)的角度來描述這些數(shù)據(jù)。

上千億的特征是個什么概念呢?如果我們每個特征只用一個Float來表示也需要上T的內(nèi)存,這是單機(jī)非常非常難以存儲下來的。這個地方還只是講到了模型存儲的空間,如果考慮到數(shù)據(jù)存儲的空間和其他的一些額外開銷的話,我們必須要設(shè)計一個模型分布式的系統(tǒng),而不是一個單機(jī)的系統(tǒng)。針對這樣的難點(diǎn),學(xué)術(shù)界里面比如KDD、WWW等頂會上都有很多的文章在研究如何高效的并行,如何保證快速收斂,有很多的異步的模式被提出來,比如說ASP、BSP同步異步算法。

我們用到的模型主要都是邏輯回歸模型,所以說線性模型的理論其實(shí)是非常成熟的,模型本身的一些改進(jìn)和優(yōu)化并沒有像上面那個第三象限里面那么多,所以說它的更新、改進(jìn)主要會集中在所謂的特征提取或者特征工程這樣的領(lǐng)域。

我先解釋一下為什么會有這么多特征。我們對所有觀察到的微觀變量進(jìn)行建模,以搜索廣告為例,每一個user的ID,每一個query,每一個廣告,都會有一個獨(dú)立的特征,同時為了個性化,user+廣告ID,user+query,query+廣告ID,我們有上億的user,上億的廣告,上億的query,這樣的組合會產(chǎn)生爆炸性的特征量,所以我們可以產(chǎn)生非常非常多的特征,這些特征是我們需要去建模的基礎(chǔ)的變量。

這樣的一個思路會比較奇怪,為什么我們把所有ID類特征作為基礎(chǔ)的建模變量,那是不是說如果我們把用戶作為一個變量的話,只要來了一個新的用戶我們就不能對這個用戶進(jìn)行廣告點(diǎn)擊率的預(yù)估呢?并不是這個樣子的。這里面就涉及到另外一個概念就是特征的層次化,即使我們沒有見過這個新用戶,我們會有這個用戶的設(shè)備信息,地域信息,還可能有性別等特征,這些特征也能幫助我們?nèi)ヅ袛噙@個用戶的點(diǎn)擊率。

還以時序動態(tài)協(xié)同過濾為例,我們看看如何沿著特征這條路來解決這個問題。首先一點(diǎn)是我們不再對這樣的問題有低秩假設(shè),如下圖左上角這個矩陣,還是原來ABCD四個人,WXYZ四個物品,我們把這樣一個矩陣直接拉平,變成一個往后one hot encoding的方式,這樣我們把所有的組合特征就變成了一個二維的矩陣,變成了一個一維組合特征的方式來表示。這樣的方式來說,就不需要再有更多的低值假設(shè),那b_ui這樣一項(xiàng)其實(shí)就可以通過我們的數(shù)據(jù)進(jìn)行擬合。

第二點(diǎn),可以通過不同維度的時間組合來建模時間維度的非線性跳變。作者也在論文寫到,他發(fā)現(xiàn)有些電影的打分并不是線性的,有時會出現(xiàn)一些不可解釋不可描述的跳變,這些跳變其實(shí)很難通過某種固定的方式進(jìn)行建模。所以他提出了下面好幾種建模的方式,比如說把時間進(jìn)行分統(tǒng),跟每個物品Item進(jìn)行組合,跟每個用戶進(jìn)行組合,包括分統(tǒng)了以后進(jìn)行分段組合,這種方式都是不再對具體的時序特點(diǎn)進(jìn)行建模,而是把他變成一個參數(shù)統(tǒng)一的由數(shù)據(jù)進(jìn)行擬合。這個地方你也可以看出來,當(dāng)我們的研究人員不能給出比較好的模型假設(shè)的時候,我們又不知道如何去應(yīng)對突變的時候,我們可以更多的去依賴于數(shù)據(jù),用潛在的參數(shù)建??赡苄?,然后通過數(shù)據(jù)學(xué)到這些參數(shù)應(yīng)該對應(yīng)的權(quán)重,然后進(jìn)行建模。

寬與深的大戰(zhàn)

其實(shí)并沒有哪個模型在所有的情況下都更好,換句話說,機(jī)器學(xué)習(xí)并沒有免費(fèi)的午餐也不會存在萬能的模型

沒有免費(fèi)午餐定理是由兩位數(shù)學(xué)家在95年提出來的,他們證明了,任何的算法不會嚴(yán)格優(yōu)于另一個算法,也就是說,如果我們能在某種損失函數(shù)下發(fā)現(xiàn)A優(yōu)化算法好于B優(yōu)化算法的話,我們一定能找出其他的一個損失函數(shù)使得B優(yōu)化算法好于A優(yōu)化算法。更直觀的描述是說,我們總能找出一個損失函數(shù),讓所有的算法都并不比隨機(jī)猜更好。

這個告訴了我們什么呢?所有的機(jī)器學(xué)習(xí)模型都是偏置,這個偏置代表你對數(shù)據(jù)的假設(shè),偏置本身并不會有哪個更好,所以說你既可以使用更多的模型假設(shè)使用更少的數(shù)據(jù),也可以使用更少的模型假設(shè)使用更多的數(shù)據(jù),這都是能使得最終的模型效果變好的方式。總結(jié)起來,對于我們工業(yè)界來說,機(jī)器學(xué)習(xí)并沒有免費(fèi)的午餐,一定要做出對于業(yè)務(wù)合適的選擇。

追求高VC維有兩條路,一個是走寬和離散的路,比如說谷歌那條路,另一條是走深的那條路,比方說雅虎news或者是bingads的路,這就是寬與深的大戰(zhàn)。因?yàn)閷捙c深在工業(yè)界都有非常成功的案例,所以堅信寬的人和堅信深的人在很長一段時間內(nèi),都是互相不能理解的。

堅信深度學(xué)習(xí)復(fù)雜模型的人認(rèn)為,寬度模型實(shí)在太簡單了,20年前模型已經(jīng)被研究非常透徹了,沒有什么更多的創(chuàng)新。堅持寬度模型的人來說,攻擊深度學(xué)習(xí)的點(diǎn)也非常的簡單,深度學(xué)習(xí)從來就沒有真正的把所有的數(shù)據(jù)都用好過,從來沒有真正發(fā)揮過所有數(shù)據(jù)的全部價值,沒有真正做到過真正的個性化,因?yàn)榇_實(shí)深度模型在推理上做得很好,但是在個性化,在記憶方面其實(shí)相比于寬度模型會差很多。

非常有幸的是我之前在兩邊都做過比較多的實(shí)際的探索和研究,其實(shí)寬和深都有各自的好處的。寬度模型和深度模型有非常強(qiáng)的融合的趨勢。換句話說,寬度模型和深度模型并沒有誰比誰更好,這就是所謂的沒有免費(fèi)的午餐定理。不同的業(yè)務(wù)應(yīng)該使用不同的模型,不同的模型也會有不同的特點(diǎn)。

寬度模型是有比較準(zhǔn)確的記憶能力的,而深度模型是有很強(qiáng)的推理能力的;寬度模型的泛化是靠層次化的特征進(jìn)行泛化,深度模型是靠模型本身的疊加進(jìn)行泛化;寬度模型有很強(qiáng)的可解釋性,比如說一個線性的模型,我可以非常容易的知道每個特征的權(quán)重是多少,以及一每個特征是如何去影響最終的結(jié)果,而對于一個深度模型來說,我們是非常難理解原始的輸入和最終的輸出是怎么樣一個對應(yīng)的關(guān)系。

寬度的模型對平臺工程要求是更高的,因?yàn)槲覀兂诵枰獙?shù)據(jù)進(jìn)行并行,還需要對模型進(jìn)行并行,而深度的模型對平臺工程的要求相對更低一點(diǎn),他的模型基本上都是單機(jī)可加載的。

還有對于選型很關(guān)鍵的一點(diǎn),寬度模型這條路上,特征工程的創(chuàng)新是提升效果的關(guān)鍵,業(yè)務(wù)的知識是很容易加入建模的,所以說在寬度模型這條路上,業(yè)務(wù)專家是非常容易產(chǎn)生價值的,并且非常容易的可以參與到整個模型的優(yōu)化之中的。而相比來說,深度模型的創(chuàng)新主要來自于模型本身的結(jié)構(gòu)的創(chuàng)新,這樣的創(chuàng)新基本上都來自于學(xué)術(shù)界和研究的專家,每種業(yè)務(wù)知識的加入可能都意味著是一種新的模型,所以說這兩種模型的選型代表著不同的人來優(yōu)化你的系統(tǒng)。

寬度和深度的大戰(zhàn)在我看來,各自有各自的優(yōu)缺點(diǎn),可以取長補(bǔ)短,對他們進(jìn)行一些融合。現(xiàn)在寬和深的融合也就是所謂的第四象限已經(jīng)逐漸成為了一個研究的熱點(diǎn),谷歌在去年4月份發(fā)表了一篇論文,介紹他們最新的工作Deep & Wide Model,這樣的模型分成deep的部分和wide的兩部分,它對細(xì)的特征有很好的記憶,也有很好的推理能力,我們認(rèn)為將來的方向都應(yīng)該朝這條路上走。

最近還有不少工作在探索這個研究的新方向。張偉楠2016年也發(fā)表論文,探索如何通過使用FM的方式,對離散的一個寬度特征進(jìn)行分解。首先進(jìn)行分解,然后再使用深度學(xué)習(xí)進(jìn)行建模,獲得了比較好的效果。隨后在WSDM上他發(fā)了另外一篇文章,講述如何加入內(nèi)積和外積的方式,更好的刻劃特征與特征之間的關(guān)系,最近第四范式也有了一些新的進(jìn)展。在去年7月份的時候,第四范式發(fā)表了一個DSN算法,這個算法底層是上千億上大小的寬度網(wǎng)絡(luò),上層是全連接的網(wǎng)絡(luò),這樣一個DSN的難點(diǎn)在于如何解決可計算性。

剛才我分享的是人工智能在工業(yè)界的應(yīng)用,我現(xiàn)在在第四范式做的事情是希望把這些經(jīng)驗(yàn)?zāi)軌蚬袒轿覀兊漠a(chǎn)品中來,能讓所有的人都能使用上人工智能,所有的人都能享受到這樣的經(jīng)驗(yàn)帶來的一些便利和好處。

在過去AI其實(shí)是沒有人能使用得,但最近AI開始被一些大的、小的公司使用,但是我們認(rèn)為,將來隨著數(shù)據(jù)越來越多,將來隨著場景越來越多,AI這樣的技術(shù)應(yīng)該是被更多的人使用,我們是希望能達(dá)到Al for everyone的一個狀態(tài)。大家可能非常熟悉一個比賽叫Kaggel,這個比賽是比較知名的針對機(jī)器學(xué)習(xí)專家的建模比賽,在Kaggle上會源源不斷的涌現(xiàn)出非常好的建模專家。我們最近做了一件非常有意思的事情,舉辦了世界上第一個非機(jī)器學(xué)習(xí)專業(yè)人士的機(jī)器學(xué)習(xí)建模大賽,我們稱這個比賽為Exciting。

這個比賽里面,所有有過機(jī)器學(xué)習(xí)背景的,有過建模背景的人都不允許參加,而能參加的人可能是做市場、銷售、研發(fā)工程師的。最終我們發(fā)現(xiàn),通過使用第四范式的平臺,我們讓70%以上的非機(jī)器學(xué)習(xí)專業(yè)人士最終實(shí)現(xiàn)了AUC0.8以上的效果,這個是非常高的工業(yè)界可以應(yīng)用的水平。

最近我們又開啟了一個新的項(xiàng)目叫做范式大學(xué),我們希望讓更多沒有人工智能背景的人能夠參與到人工智能的研究和人工智能的開發(fā)之中來。這樣的項(xiàng)目會越來越多,我們相信第四范式也會離Al for everyone目標(biāo)越來越近。

鈦坦白群友互動:

1.Dr.陳,在你目前這么寬的行業(yè)視野內(nèi),除了個性化推薦外,機(jī)器學(xué)習(xí)在互聯(lián)網(wǎng)公司的自動化測試、智能運(yùn)維、智能巡檢等方向,是否有應(yīng)用的可能性呢?還有,剛才你提到了獲客,機(jī)器學(xué)習(xí)在這個方向的應(yīng)用是個什么場景?

陳雨強(qiáng):關(guān)于機(jī)器學(xué)習(xí)能不能在其他的領(lǐng)域進(jìn)行應(yīng)用,我覺得主要還是五個條件是否能滿足。是否有足夠的數(shù)據(jù),問題定義的是否足夠清晰,有清晰的邊界,人工智能的人才,計算資源,外部反饋。

獲客這個角度來說,其實(shí)機(jī)器學(xué)習(xí)會有非常廣泛的應(yīng)用,其實(shí)這不是最近才出來的概念,獲客在DSP出現(xiàn)的時候就已經(jīng)是非常廣泛使用的技術(shù)了。就是在DSP報價的時候,對于一個新來的流量,他會通過機(jī)器學(xué)習(xí)的方式去預(yù)估這個流量給這個網(wǎng)站,這個商家?guī)淼膬r值是高還是低,或者說CTR點(diǎn)擊率是高還是低,通過這個方式來進(jìn)行報價。

2. 自動化巡檢的話,我的感覺是需要用到大量的圖片信息來判斷業(yè)務(wù)的狀態(tài),那這大量的圖片如果分辨率很高,是不是就很難做計算了?

陳雨強(qiáng):如果分辨率高但是有標(biāo)注的話,其實(shí)也是可解的。

3. 請問一下,您之前合作過的行業(yè)領(lǐng)域和應(yīng)用場景主要有哪些? 能舉些稍微具體一點(diǎn)的例子嗎?

陳雨強(qiáng):之前具體合作的行業(yè)有金融行業(yè)的,比如信用卡分期的營銷,比如欺詐的檢測,風(fēng)險控制,然后我們還做了很多關(guān)于推薦、搜索相關(guān)的方案。

(本文獨(dú)家首發(fā)鈦媒體,根據(jù)第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)在鈦坦白上的分享整理)

……………………………………

鈦坦白第33期,AI已來之機(jī)器學(xué)習(xí)2,三晚上的分享已經(jīng)結(jié)束了

干貨會陸續(xù)發(fā)布:http://www.chcmb.cn/tag/1508094

鈦坦白第34期:二手“大”市場

孔夫子舊書網(wǎng)創(chuàng)始人、回收寶合伙人、轉(zhuǎn)轉(zhuǎn)公司3C事業(yè)部總經(jīng)理,將帶來精彩分享~

地點(diǎn):鈦坦白|文娛社交(微信群)

報名聽課、交流:

鈦坦白目前有醫(yī)療健康、人工智能、文娛社交、VR/AR、區(qū)塊鏈、支付創(chuàng)新、體育、云計算、SaaS等九個專業(yè)群。

1、鈦媒體Pro專業(yè)版用戶,可以點(diǎn)擊鏈接http://www.chcmb.cn/pro,登錄賬號,在線免費(fèi)、任意選擇自己要進(jìn)入的群,按提示操作;

2、非鈦媒體Pro專業(yè)版用戶,可以添加微信號taitanbai0,在通過好友后,發(fā)99元紅包給小鈦,你將有權(quán)利從九個群中任選一個群進(jìn)入,長期聽課、交流。請告訴小鈦你要進(jìn)入哪一個群,然后等待小鈦拉你入群~

推薦鈦客、贊助、合作:

請與鈦坦白負(fù)責(zé)人佳音聯(lián)系,郵箱jiayinge@tmtpost.com

本文系作者 葛佳音 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 內(nèi)容夠深度㊣

    回復(fù) 2017.04.04 · via android

快報

更多

19:23

STOXX歐洲600指數(shù)漲幅擴(kuò)大至1%,創(chuàng)下當(dāng)日高點(diǎn)

19:18

DeepSeek連續(xù)3天發(fā)生服務(wù)異常

19:17

沃爾核材:2025年度凈利潤11.44億元,同比增長34.96%

19:17

捷佳偉創(chuàng):詢價轉(zhuǎn)讓初步定價94.12元/股

19:16

霸王茶姬2025全年凈收入達(dá)129.1億,海外GMV大漲超84%

19:15

智譜AI發(fā)布上市后首份財報:營收同比增長131.9%

19:04

陽光電源:2025年度凈利潤134.61億元,同比增長21.97%

19:00

LME期鋁期貨合約上漲3%,至每噸3,505美元

18:58

兩面針:實(shí)際控制人將變更為廣西壯族自治區(qū)國資委,明起復(fù)牌

18:57

春秋航空:控股股東提議3億元-5億元回購股份

18:57

中指研究院:前三個月TOP100房企銷售總額6208.7億元

18:48

雪浪環(huán)境:與7家財務(wù)投資人簽署重整投資協(xié)議

18:47

長春高新:1類治療用生物制品GenSci161注射液臨床試驗(yàn)申請獲批準(zhǔn) 目前國內(nèi)外尚無同類藥物在子宮內(nèi)膜異位癥領(lǐng)域獲批上市

18:33

嘉華股份:實(shí)控人籌劃控制權(quán)變更,明起停牌

18:28

順網(wǎng)科技:擬收購紹興未來山海32.34%股權(quán)

18:26

央行:2月同業(yè)拆借日均成交4293.2億元,同比增加87.1%

18:25

美的集團(tuán):3月31日回購130.51萬股,耗資約1億元

18:20

二季度國債發(fā)行有關(guān)安排公布,機(jī)構(gòu)認(rèn)為二季度發(fā)行有望放量

18:19

2025年中國保險行業(yè)承保新能源汽車同比增長40.1%

18:18

杭華股份:持股5%以上股東擬減持不超3%股份

1

掃描下載App