免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看

人才和學(xué)界都已經(jīng)有了儲(chǔ)備,數(shù)據(jù)競賽的中國時(shí)代來了嗎?

中國企業(yè),尤其是新興企業(yè)自然開始嘗試牽頭組織大規(guī)模的數(shù)據(jù)競賽。而這些比賽的數(shù)據(jù)中,一些甚至已經(jīng)有了政府的身影。

1912年泰坦尼克號(hào)(RMS Titanic)的沉沒恐怕是歷史上最著名的船災(zāi)了,但對(duì)于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的學(xué)生來說,泰坦尼克號(hào)的船災(zāi)卻有另一種熟悉——它是數(shù)據(jù)競賽平臺(tái)Kaggle上的公益入門競賽題,參賽者需要通過892位帶有姓名、性別、年齡、票號(hào)、船費(fèi)、倉位、上船港口、父母子女以及兄弟姐們配偶數(shù)量的乘客數(shù)據(jù),使用機(jī)器學(xué)習(xí)的工具,分析出乘客生還的幾率。

自2012年這些數(shù)據(jù)上線已來,4年多的時(shí)間已經(jīng)有6080個(gè)團(tuán)隊(duì)嘗試過這道試題,在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,這無疑是一個(gè)相當(dāng)大的數(shù)字了。

Kaggle是國際著名的數(shù)據(jù)建模和數(shù)據(jù)分析競賽平臺(tái),成立于2010年。與之相似的,還有已近20年歷史的頂級(jí)數(shù)據(jù)挖掘賽事KDD-CUP。在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域,由于學(xué)校缺少大規(guī)模的應(yīng)用數(shù)據(jù),國內(nèi)外不少學(xué)校都把類似Kaggle、KDD-CUP這樣的數(shù)據(jù)競賽當(dāng)做訓(xùn)練學(xué)生的重要途徑。著名的清華大學(xué)的姚班,就把Kaggle的組隊(duì)比賽成績作為重要的考核標(biāo)準(zhǔn)。

少有人注意到的是,國內(nèi)互聯(lián)網(wǎng)公司,尤其是新興公司,也開始日益重視數(shù)據(jù)競賽。2014年阿里做了第一屆“天池”,2015年滴滴做了第一屆Di-Tech,今年今日頭條也加入,做了基于問答數(shù)據(jù)的BYTE CUP。移動(dòng)互聯(lián)網(wǎng)時(shí)代,在人工智能產(chǎn)品應(yīng)用層面已經(jīng)和美國同時(shí)起跑的中國,已經(jīng)到了可以出現(xiàn)世界級(jí)數(shù)據(jù)大賽的時(shí)候了嗎?

緣起:業(yè)界解決問題,發(fā)現(xiàn)人才

和大多數(shù)學(xué)術(shù)向競賽不同,數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)領(lǐng)域的競賽,從誕生之日起就有明顯的工業(yè)應(yīng)用色彩,并和企業(yè)、政府高度相關(guān)。

ACM (美國計(jì)算機(jī)協(xié)會(huì))下屬數(shù)據(jù)挖掘及知識(shí)發(fā)現(xiàn)專委會(huì)(SIGKDD)從1995年開始固定舉辦的ACM-SIGKDD 國際大會(huì),是知識(shí)發(fā)現(xiàn)及數(shù)據(jù)挖掘領(lǐng)域(Knowledge Discovery and Data Mining)的頂級(jí)技術(shù)大會(huì)。1997年,KDD推出了KDD-CUP,這是該領(lǐng)域迄今為止最重要的國際賽事。

KDD-CUP的應(yīng)用色彩非常顯著。1997年首屆KDD-CUP,是由美國癱瘓退伍軍人協(xié)會(huì)(Paralyzed Veterans of America)提供的350萬捐贈(zèng)者的捐贈(zèng)記錄,目標(biāo)是希望通過數(shù)據(jù)分析,得出哪些人更有可能成為捐贈(zèng)者,以幫助協(xié)會(huì)更準(zhǔn)確的發(fā)送求助郵件。

1999年的數(shù)據(jù)集則更為經(jīng)典,是來自于美國國防部高級(jí)規(guī)劃署(DARPA)在MIT林肯實(shí)驗(yàn)室做的入侵檢測評(píng)估項(xiàng)目數(shù)據(jù),希望參賽者能夠分別那些操作是外部入侵。這一年的獲勝者,是著名的SAS公司。

KDD CUP的協(xié)辦單位一般是微軟、雅虎、Facebook、卡耐基梅隆大學(xué)、法國電信、西門子醫(yī)療,這些久負(fù)盛名的機(jī)構(gòu)/公司。

而2010年成立的Kaggle則是一個(gè)數(shù)據(jù)競賽平臺(tái),上面的比賽有獲得面試類的,提供獎(jiǎng)金類的,還有純粹練習(xí)用的。泰坦尼克的數(shù)據(jù)就是一個(gè)練習(xí)比賽。實(shí)際上,不少公司都會(huì)在上面開放自己的數(shù)據(jù),舉辦數(shù)據(jù)競賽,發(fā)現(xiàn)人才。

對(duì)于政府、企業(yè)來說,通過開放特定數(shù)據(jù)舉辦比賽,一方面可以通過眾包的方式,尋找更好的解決問題的方式,同時(shí),能夠提供數(shù)據(jù)本身,也是對(duì)企業(yè)數(shù)據(jù)能力的一種證明。

通常被國際頂級(jí)學(xué)術(shù)會(huì)議選中的合作伙伴,都是能提供極有前沿應(yīng)用價(jià)值的大規(guī)模數(shù)據(jù)的機(jī)構(gòu),而且一旦被選中,他們開放的數(shù)據(jù)往往成為數(shù)據(jù)挖掘從業(yè)者研究和開發(fā)的范本訓(xùn)練數(shù)據(jù)。

另一方面,對(duì)于互聯(lián)網(wǎng)企業(yè)來說,數(shù)據(jù)競賽也可以發(fā)現(xiàn)、儲(chǔ)備優(yōu)秀的人才。

實(shí)際上,IBM Watson以及Google Deep Mind 的不少成員都活躍于Kaggle,Kaggle甚至推出了求職版面。至于KDD-CUP,獲勝者更是各大公司的目標(biāo)候選人,就中國選手來看,05年HKUST的沈抖就被微軟總部挖走,11年中科院的項(xiàng)亮也加入了美國視頻推薦網(wǎng)站hulu。

繁榮:大數(shù)據(jù)時(shí)代的兩個(gè)壁壘

雖然KDD-CUP至今已經(jīng)接近20年,但數(shù)據(jù)競賽這種“亞文化”真正受到關(guān)注,還是隨著大數(shù)據(jù)時(shí)代,甚至移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來才為人所知的。

移動(dòng)互聯(lián)網(wǎng)時(shí)代,由于手機(jī)貼身攜帶,許多公司,尤其是移動(dòng)互聯(lián)網(wǎng)公司擁有了海量的個(gè)性化數(shù)據(jù),這使得更精細(xì)、更深入的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)成為可能。

在數(shù)據(jù)領(lǐng)域存在兩種壁壘,一種是技術(shù)上的,比誰的算法更優(yōu);一種是資源上的,比誰的數(shù)據(jù)更多更全。這兩種壁壘并不一定同時(shí)存在,有數(shù)據(jù)壁壘的未必有技術(shù)壁壘,反之亦然。

擁有資本和海量數(shù)據(jù)的業(yè)界,正不斷尋找優(yōu)秀人才打破技術(shù)壁壘。就在今年,斯坦福教授、ImageNet締造者李飛飛加盟Google,卡耐基梅隆大學(xué)機(jī)器學(xué)習(xí)副教授Russ Salakhutdinov去了蘋果,深度學(xué)習(xí)“三巨頭”之一Yoshua Bengio創(chuàng)辦的MILA實(shí)驗(yàn)室接受了來自Google的一筆捐助(用于加速算法的實(shí)際應(yīng)用),中科院智能信息處理重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任山世光下海創(chuàng)業(yè),ACL Fellow林德康創(chuàng)辦奇點(diǎn)機(jī)智。

而今年的SIGKDD上,微軟亞洲研究院的研究員鄭宇分享了一組數(shù)據(jù),2015到2016年中國兩岸三地被KDD錄用的文章中偏理論研究的文章數(shù)量大幅下降,但偏應(yīng)用的文章大幅上升。這也顯示出,新時(shí)代對(duì)業(yè)界對(duì)學(xué)界的影響。

對(duì)于學(xué)界來說,數(shù)據(jù)壁壘更為嚴(yán)重。很多機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的課程,都是演示性的少量數(shù)據(jù)。真實(shí)世界里,數(shù)據(jù)是海量的,充滿缺失和不足的。實(shí)際工作中,很多數(shù)據(jù)分析工作都是和真實(shí)世界里的缺陷做斗爭。

一個(gè)征信從業(yè)者招聘的時(shí)候發(fā)現(xiàn)了一個(gè)現(xiàn)象:他們面試了好幾個(gè)美國最好的學(xué)校出來的博士生,給他們一組數(shù)據(jù),讓他們自己定義可以返回什么 結(jié)果,為什么定義這樣的指標(biāo),結(jié)果十個(gè)里面有八九個(gè)都會(huì)用“準(zhǔn)確率”來作為衡量算法是否準(zhǔn)確的唯一標(biāo)識(shí),但實(shí)際上這樣的判斷標(biāo)準(zhǔn)在征信領(lǐng)域并不適用。

于是擁有企業(yè)、政府真實(shí)數(shù)據(jù)的數(shù)據(jù)競賽就開始日益受到學(xué)界的關(guān)注。2005年的KDD-CUP的參賽隊(duì)伍提交還只有三十多次,但到2011年,就已超過1000次提交,這意味著參賽隊(duì)伍大幅增加。 

未來:中國競賽的崛起和機(jī)會(huì)?

反觀國內(nèi),人才、學(xué)界還是業(yè)界,目前都已經(jīng)做好了出現(xiàn)頂級(jí)國際賽事的準(zhǔn)備。

2012年KDD CUP Track1冠軍是上海交通大學(xué)ACM班(亞軍來自盛大創(chuàng)新院團(tuán)隊(duì)),2013年兩個(gè)賽題的雙料冠軍是本科就讀于浙大、研究生就讀于臺(tái)灣大學(xué)的莊勇,2014年的冠軍團(tuán)隊(duì)成員之一Peng Liu,2015年冠軍團(tuán)隊(duì)“Intercontinental Ensemble”由有道計(jì)算廣告團(tuán)隊(duì)成員燕鵬帶隊(duì),2016年桂冠旁落他人,但清華大學(xué)的錢雨杰團(tuán)隊(duì)也摘得了亞軍。

實(shí)際上,中國團(tuán)隊(duì)差點(diǎn)兒包攬了KDD CUP過去5年的所有冠軍。這意味著即便和人工智能的早期推動(dòng)者美國日本相比,中國的AI的人才也已不落下風(fēng)。

另一個(gè)數(shù)據(jù)是美國科學(xué)技術(shù)政策辦公室發(fā)布的白皮書,在這個(gè)圖表里我們可以看到,就深度學(xué)習(xí)這一母題的論文數(shù)量,中國已經(jīng)超過美國,居第一位。

此外,中國人工智能和大數(shù)據(jù)的發(fā)展速度也令人刮目。2014年國內(nèi)新增150多家人工智能企業(yè),2015 年新增 160 家左右,這兩年新增的人工智能企業(yè)數(shù)超過了之前 10 年的總和。

實(shí)際上,近幾年KDD CUP協(xié)辦單位列表中已經(jīng)出現(xiàn)了一些熟悉的名字,2012年KDD CUP的協(xié)辦單位是騰訊,2014年是學(xué)堂在線。

當(dāng)人才、學(xué)界都已經(jīng)有相當(dāng)?shù)膬?chǔ)備,中國企業(yè),尤其是新興企業(yè)自然開始嘗試牽頭組織大規(guī)模的數(shù)據(jù)競賽,而這些比賽的數(shù)據(jù)中,一些甚至已經(jīng)有了政府的身影。

阿里的天池是先行者,2015年他們競賽中的一場,就是與廣東省人民政府合作,要求選手挖掘市民在公共交通中的行為模式,以解決城市公交線路客流不均衡及出行擁堵等問題。

8月份,成立剛剛4年的今日頭條也和IEEE中國和中國人工智能學(xué)會(huì)聯(lián)合舉辦了ByteCup。今日頭條上線了“頭條問答”,其中網(wǎng)友提的一些諸如網(wǎng)絡(luò)約車普及后出租車司機(jī)的現(xiàn)狀如何、退伍軍人在什么情況下會(huì)被召回、為什么政府今年要大力推動(dòng)銀行投貸聯(lián)動(dòng)等非結(jié)構(gòu)化的問題——機(jī)器無法回答,必須匹配到特定的人,而 ByteCup這次比賽的任務(wù)是建立預(yù)測專家可能回答某一問題的概率的模型,從而找到那個(gè)“特定的人”。這個(gè)題目之所以能成為競賽的賽題,是因?yàn)榻袢疹^條數(shù)以億計(jì)的日活產(chǎn)生了足夠多的有效數(shù)據(jù)。

與之前中國選手參加國外比賽不同,這次比賽有相當(dāng)選手來自海外,一等獎(jiǎng)隊(duì)伍BrickMover中的兩位博士就來自Georgia Institute of Technology。

除去頭條,滴滴也在做Di-Tech數(shù)據(jù)競賽。相比上一代科技公司,誕生于移動(dòng)時(shí)代的今日頭條和滴滴顯得更年輕,也更為重視產(chǎn)品背后的技術(shù)競爭和應(yīng)用。今日頭條算法架構(gòu)師曹歡歡在接受采訪時(shí)明確的表述,這次比賽的目的,就是為了和學(xué)界有更多交流,“順便也挖掘一下相關(guān)的技術(shù)人才”。

相比美國,中國在移動(dòng)數(shù)據(jù)時(shí)代,用戶數(shù)據(jù)、政府政策、資本投入和人才儲(chǔ)備上,已經(jīng)擁有了相當(dāng)?shù)膬?yōu)勢。普遍的觀點(diǎn)是,中國在移動(dòng)互聯(lián)網(wǎng)時(shí)代的產(chǎn)品創(chuàng)新已經(jīng)不弱于美國。

今日頭條這些擁有海量數(shù)據(jù)的新興企業(yè)在數(shù)據(jù)競賽上的發(fā)力,很可能意味著一個(gè)新時(shí)代的到來——或許不久之后,到今日頭條或者阿里、滴滴的平臺(tái)上參加競賽,會(huì)代替Kaggle,成為國內(nèi)外頂級(jí)高校機(jī)器學(xué)習(xí)學(xué)生們的必修課。

本文系作者 充電線 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容
  • 人才最重要...

    回復(fù) 2016.12.21 · via iphone

快報(bào)

更多

2026-03-20 23:03

15個(gè)省份公布去年常住人口數(shù)據(jù)

2026-03-20 23:03

海油工程:2025年凈利潤20.84億元,同比下降3.56%

2026-03-20 23:02

洲際油氣:全資子公司NK石油公司與惠博普簽訂15.96億元合同

2026-03-20 22:47

WTI原油漲1.05%,報(bào)96.552美元/桶

2026-03-20 22:36

杭州新元素藥業(yè)股份有限公司遞表港交所

2026-03-20 22:33

PTA連續(xù)主力合約日內(nèi)漲3%,現(xiàn)報(bào)6830.00元

2026-03-20 22:26

LME倫銅日內(nèi)跌超2.00%,現(xiàn)報(bào)11895.250美元/噸

2026-03-20 22:26

現(xiàn)貨鈀金下跌3%至1,403.75美元/盎司

2026-03-20 22:19

普冉股份:2025年凈利潤2.08億元,同比下降29.03%

2026-03-20 22:18

現(xiàn)貨白銀日內(nèi)跌幅擴(kuò)大至5%,報(bào)69.09美元/盎司

2026-03-20 22:16

歐洲斯托克600指數(shù)跌幅擴(kuò)大至1%,觸及當(dāng)日低點(diǎn)

2026-03-20 22:11

現(xiàn)貨黃金日內(nèi)跌幅擴(kuò)大至1%,報(bào)4602.89美元/盎司

2026-03-20 22:06

德國DAX30指數(shù)跌幅擴(kuò)大至1%

2026-03-20 22:06

美國5年期國債收益率自2025年7月以來首次升至4%上方

2026-03-20 22:03

交易員認(rèn)為美聯(lián)儲(chǔ)在10月前加息的可能性為50%

2026-03-20 21:55

美國10年期國債收益率升至4.33%,為8月以來最高水平

2026-03-20 21:51

大商所焦煤期貨持續(xù)拉升,漲超7.5%

2026-03-20 21:43

Nexstar股票上漲7.3%

2026-03-20 21:42

紫金礦業(yè):擬15億元-25億元回購A股股份用于員工持股計(jì)劃或股權(quán)激勵(lì)

2026-03-20 21:37

納斯達(dá)克中國金龍指數(shù)跌1.0%,報(bào)6873.18點(diǎn)

4

掃描下載App