-->

免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看

違規(guī)提示

請您遵循相關法律法規(guī),避免再次出現(xiàn)類似問題

如有任何疑問,請聯(lián)系support@tmtpost.com

關閉
第三課:如何提高系統(tǒng)的VC維?
陳雨強 / 人工智能在工業(yè)界應用的必經之路
第三課:如何提高系統(tǒng)的VC維?

第三課:如何提高系統(tǒng)的VC維?

小欣:這節(jié)課,陳雨強老師會為我們講解如何提高VC維。

陳雨強:我們知道機器學習等于數據+特征+模型。如果說我已經有了很多的數據,提升VC維的途徑就只有兩條——從特征和模型的角度。

我們把特征分成兩類:一類叫做宏觀特征。描述的統(tǒng)計類特征,比如說整體的點擊率或者整體統(tǒng)計系統(tǒng)這樣的特征;另一類特征是微觀特征。最典型的微觀特征是ID類的特征,每個人都會有這樣的特征,每個物品也會有一個ID,然后人和物品的組合也會有這樣的ID類特征。相應的模型也會分成兩類:一類是簡單的模型,比方說線性模型;另一類是復雜模型,比如說深度學習模型。

這里我們引入機器學習四個象限的概念:

第一象限是簡單模型加上宏觀特征。這是我們傳統(tǒng)的專家系統(tǒng)和統(tǒng)計模型所在的范疇,大家可能比較熟悉的一些傳統(tǒng)的機器學習數據集比如說UCI就是典型的這個象限內的。這大概是七八十年代的數據集,每個數據集里面有一千個左右的訓練數據,特征維度也不高、分的類數也并不多,在這樣的一個數據集里面統(tǒng)計模型會比較盛行。它主要解決的問題是怎么樣找出特征之間的關系,以及各自的關聯(lián)度。

第二象限是簡單模型加上復雜特征。這里面最成功的案例可能就是谷歌的Adwords。谷歌的Adwords里面有上千億的特征,取得了非常大的成功,給谷歌帶來了很多的收益占據谷歌收入的70%以上。同時谷歌的展示廣告也使用了同樣的技術并且占據剩下收入的20%。這樣的模型不僅是在谷歌在整個互聯(lián)網廣告中都是被使用最廣泛的一個技術。

第三象限是使用復雜模型、宏觀特征。這里最典型的代表是雅虎news和bing這樣的系統(tǒng)。bing的廣告在2013年提出他們的BPR模型,來去刻畫每個特征的知信度。雅虎也是第三象限最忠實的支持者之一,大家所熟悉的COEC就來自于這樣的模型,雅虎還設計了很多增強學習的機制比如說多臂老虎機,這也是這個里面最成功的應用之一。

第四象限是復雜模型和微觀特征?,F(xiàn)在還是一個非常熱門的研究領域,里面最難的一個問題是如何在這么大規(guī)模的特征情況下使用非線性模型。計算量是一個很大的一個難點,比方說如果我有上千億的特征,我的節(jié)點有上千個,我可能需要上萬億甚至更多的參數才能保存下來這個模型。這個可能不管是從內存上還是計算上都是不可接受的,所以這是一個非常熱門的研究領域,非常多的研究機構正在這個方面進行嘗試。

我們現(xiàn)在講一下如何沿著第三象限就是復雜模型和宏觀特征這條路來優(yōu)化模型。這條路主要是由學術界主導,這樣的模型主要來自于 ICML、NIPS、ICLR這樣的會議,非線性有三把寶劍分別是Kernel、Boosting、Neural Network。Boosting最成功的是現(xiàn)在熟知的GBDT;Kernel比較成功的是SVM里面流行的RBF Kernel;Neural network比較流行的現(xiàn)在最成功的深度學習。現(xiàn)在科學家為了實驗的方便,對工程的實現(xiàn)能力要求并不是特別的高,大部分的模型是單機科學家在做,要解決的實際問題是數據分布式和降低分布式通信帶來overhead這樣的問題。

小欣:下節(jié)課,陳雨強老師會為我們講解如何從模型角度提高VC維。

【版權歸鈦媒體所有,未經許可不得轉載】

分享課程:
大家都在學
72問 有聲書系列 / 中國經濟2021
精品小課 揭秘黃金投資:2022年以來上漲表現(xiàn)最好的資產之一
精品小課 阿里人力資源體系課

Oh! no

您是否確認要刪除該條評論嗎?

全部課程 ( 6 )
倒序播放

00:00
/
00:00
X1.0

注冊郵箱未驗證

我們已向下方郵箱發(fā)送了驗證郵件,請查收并按提示驗證您的郵箱。

如果您沒有收到郵件,請留意垃圾郵件箱。

更換郵箱

您當前使用的郵箱可能無法接收驗證郵件,建議您更換郵箱

賬號合并

經檢測,你是“鈦媒體”和“商業(yè)價值”的注冊用戶?,F(xiàn)在,我們對兩個產品因進行整合,需要您選擇一個賬號用來登錄。無論您選擇哪個賬號,兩個賬號的原有信息都會合并在一起。對于給您造成的不便,我們深感歉意。