亚洲成人高清无码视频 ,免费看A级片完整版,在线观看黄片不卡

第五課：如何從特征角度提高VC維？

陳雨強 / 人工智能在工業(yè)界應(yīng)用的必經(jīng)之路

第五課：如何從特征角度提高VC維？

小欣：這節(jié)課，陳雨強老師會為我們講解如何從特征角度提高VC維。

陳雨強：沿著特征這條路優(yōu)化的特點就是模型一定要做成分布式的。這個工程上的挑戰(zhàn)是非常大的。在這條路上比較典型的成功公司，比如谷歌使用了上千億的特征、百度也使用了上千億的特征，這些公司都是是從最細的角度來描述這些數(shù)據(jù)。

上千億的特征是個什么概念呢？如果我們每個特征只用一個Float來表示也需要上T的內(nèi)存，這是單機非常難以存儲下來的。這個地方還只是講到了模型存儲的空間，如果考慮到數(shù)據(jù)存儲的空間和其他的一些額外開銷的話，我們必須要設(shè)計一個模型分布式的系統(tǒng)而不是一個單機的系統(tǒng)。針對這樣的難點，學(xué)術(shù)界里面比如KDD、WWW等頂會上都有很多的文章在研究如何高效的并行、如何保證快速收斂，有很多的異步模式被提出來比如說ASP、BSP同步異步算法。

我們用到的模型主要都是邏輯回歸模型，所以說線性模型的理論其實是非常成熟的。模型本身的一些改進和優(yōu)化并沒有像上面那個第三象限里面那么多，所以說它的更新、改進主要會集中在所謂的特征提取或者特征工程這樣的領(lǐng)域。

我先解釋一下為什么會有這么多特征。我們對所有觀察到的微觀變量進行建模，以搜索廣告為例：每一個user的ID、每一個query、每一個廣告都會有一個獨立的特征。同時為了個性化，user＋廣告ID、user＋query、query＋廣告ID，我們有上億的user、上億的廣告、上億的query，這樣的組合會產(chǎn)生爆炸性的特征量。所以我們可以產(chǎn)生非常多的特征，這些特征是我們建模的基礎(chǔ)變量。

這樣的一個思路會比較奇怪，為什么我們把所有ID類特征作為基礎(chǔ)的建模變量？那是不是說如果我們把用戶作為一個變量，只要來了一個新的用戶我們就不能對這個用戶進行廣告點擊率的預(yù)估呢？并不是這個樣子的。這里面就涉及到另外一個概念就是特征的層次化。即使我們沒有見過這個新用戶，我們會有這個用戶的設(shè)備信息、地域信息還可能有性別等特征，這些特征也能幫助我們?nèi)ヅ袛噙@個用戶的點擊率。

還以時序動態(tài)協(xié)同過濾為例，我們看看如何沿著特征這條路來解決這個問題。首先一點是我們不再對這樣的問題有低秩假設(shè)。比如一個矩陣，還是原來ABCD四個人、WXYZ四個物品，我們把這樣一個矩陣直接拉平變成一個往后one hot encoding的方式，這樣我們把一個二維的矩陣變成一個一維組合特征的方式來表示。這樣的方式來說，就不需要再有更多的低值假設(shè)，那b_ui這樣一項其實就可以通過我們的數(shù)據(jù)進行擬合。

第二點，可以通過不同維度的時間組合來建模時間維度的非線性跳變。作者也在論文寫到，他發(fā)現(xiàn)有些電影的打分并不是線性的，有時會出現(xiàn)一些不可解釋不可描述的跳變，這些跳變其實很難通過某種固定的方式進行建模。所以他提出了下面好幾種建模的方式，比如說把時間進行分統(tǒng)，跟每個物品Item進行組合，跟每個用戶進行組合，包括分統(tǒng)了以后進行分段組合。

這種方式都是不再對具體的時序特點進行建模，而是把他變成一個參數(shù)統(tǒng)一的由數(shù)據(jù)進行擬合。這個地方你也可以看出來，當我們的研究人員不能給出比較好的模型假設(shè)又不知道如何去應(yīng)對突變的時候，我們可以更多的去依賴于數(shù)據(jù)，用潛在的參數(shù)建?？赡苄酝ㄟ^數(shù)據(jù)學(xué)到這些參數(shù)應(yīng)該對應(yīng)的權(quán)重，然后進行建模。

小欣：下節(jié)課，陳雨強老師會為我們講解機器學(xué)習(xí)是否存在萬能的模型。

【版權(quán)歸鈦媒體所有，未經(jīng)許可不得轉(zhuǎn)載】