-->
第五課:如何從特征角度提高VC維?
小欣:這節(jié)課,陳雨強老師會為我們講解如何從特征角度提高VC維。
陳雨強:沿著特征這條路優(yōu)化的特點就是模型一定要做成分布式的。這個工程上的挑戰(zhàn)是非常大的。在這條路上比較典型的成功公司,比如谷歌使用了上千億的特征、百度也使用了上千億的特征,這些公司都是是從最細的角度來描述這些數(shù)據(jù)。
上千億的特征是個什么概念呢?如果我們每個特征只用一個Float來表示也需要上T的內(nèi)存,這是單機非常難以存儲下來的。這個地方還只是講到了模型存儲的空間,如果考慮到數(shù)據(jù)存儲的空間和其他的一些額外開銷的話,我們必須要設(shè)計一個模型分布式的系統(tǒng)而不是一個單機的系統(tǒng)。針對這樣的難點,學(xué)術(shù)界里面比如KDD、WWW等頂會上都有很多的文章在研究如何高效的并行、如何保證快速收斂,有很多的異步模式被提出來比如說ASP、BSP同步異步算法。
我們用到的模型主要都是邏輯回歸模型,所以說線性模型的理論其實是非常成熟的。模型本身的一些改進和優(yōu)化并沒有像上面那個第三象限里面那么多,所以說它的更新、改進主要會集中在所謂的特征提取或者特征工程這樣的領(lǐng)域。
我先解釋一下為什么會有這么多特征。我們對所有觀察到的微觀變量進行建模,以搜索廣告為例:每一個user的ID、每一個query、每一個廣告都會有一個獨立的特征。同時為了個性化,user+廣告ID、user+query、query+廣告ID,我們有上億的user、上億的廣告、上億的query,這樣的組合會產(chǎn)生爆炸性的特征量。所以我們可以產(chǎn)生非常多的特征,這些特征是我們建模的基礎(chǔ)變量。
這樣的一個思路會比較奇怪,為什么我們把所有ID類特征作為基礎(chǔ)的建模變量?那是不是說如果我們把用戶作為一個變量,只要來了一個新的用戶我們就不能對這個用戶進行廣告點擊率的預(yù)估呢?并不是這個樣子的。這里面就涉及到另外一個概念就是特征的層次化。即使我們沒有見過這個新用戶,我們會有這個用戶的設(shè)備信息、地域信息還可能有性別等特征,這些特征也能幫助我們?nèi)ヅ袛噙@個用戶的點擊率。
還以時序動態(tài)協(xié)同過濾為例,我們看看如何沿著特征這條路來解決這個問題。首先一點是我們不再對這樣的問題有低秩假設(shè)。比如一個矩陣,還是原來ABCD四個人、WXYZ四個物品,我們把這樣一個矩陣直接拉平變成一個往后one hot encoding的方式,這樣我們把一個二維的矩陣變成一個一維組合特征的方式來表示。這樣的方式來說,就不需要再有更多的低值假設(shè),那b_ui這樣一項其實就可以通過我們的數(shù)據(jù)進行擬合。
第二點,可以通過不同維度的時間組合來建模時間維度的非線性跳變。作者也在論文寫到,他發(fā)現(xiàn)有些電影的打分并不是線性的,有時會出現(xiàn)一些不可解釋不可描述的跳變,這些跳變其實很難通過某種固定的方式進行建模。所以他提出了下面好幾種建模的方式,比如說把時間進行分統(tǒng),跟每個物品Item進行組合,跟每個用戶進行組合,包括分統(tǒng)了以后進行分段組合。
這種方式都是不再對具體的時序特點進行建模,而是把他變成一個參數(shù)統(tǒng)一的由數(shù)據(jù)進行擬合。這個地方你也可以看出來,當我們的研究人員不能給出比較好的模型假設(shè)又不知道如何去應(yīng)對突變的時候,我們可以更多的去依賴于數(shù)據(jù),用潛在的參數(shù)建??赡苄酝ㄟ^數(shù)據(jù)學(xué)到這些參數(shù)應(yīng)該對應(yīng)的權(quán)重,然后進行建模。
小欣:下節(jié)課,陳雨強老師會為我們講解機器學(xué)習(xí)是否存在萬能的模型。
【版權(quán)歸鈦媒體所有,未經(jīng)許可不得轉(zhuǎn)載】

賬號合并
經(jīng)檢測,你是“鈦媒體”和“商業(yè)價值”的注冊用戶?,F(xiàn)在,我們對兩個產(chǎn)品因進行整合,需要您選擇一個賬號用來登錄。無論您選擇哪個賬號,兩個賬號的原有信息都會合并在一起。對于給您造成的不便,我們深感歉意。
Oh! no
您是否確認要刪除該條評論嗎?