-->
第四課:通用集群對深度學習系統(tǒng)的挑戰(zhàn)
小欣:本期課程的最后一節(jié),于洋老師會為我們講解通用集群對于深度學習系統(tǒng)的挑戰(zhàn)。
于洋:通用集群對深度學習是一個全新的挑戰(zhàn),它包括以下幾個方面:
通用集群首先會將任進程成很多的組,每組構(gòu)成一個Job,這些作業(yè)中有的是Web 服務(wù)、有的是流式數(shù)據(jù)處理作業(yè)還有深度學習作業(yè)。
這個集群需要做到服務(wù)隔離、多用戶。因為這個集群上跑了眾多的任務(wù),一個任務(wù)掛掉不可以讓其他的任務(wù)有任何的問題并且由于這個集群是直接的線上集群,所以它的穩(wěn)定性要求還是非常高的。
這個集群需要有一定的優(yōu)先級調(diào)度的能力。比如他首先需要保證線上任務(wù)的穩(wěn)定性,但是也需要在機器空余的時候可以去做低優(yōu)先級的任務(wù)比如實驗性質(zhì)的任務(wù)。
在這種集群里可以對硬件進行高效的利用。比如說HDFS可能更需要的是磁盤的IO或帶寬。但是對于深度學習任務(wù)來講可能更多需要CPU的計算能力和GPU的計算能力,他們就可以調(diào)度到同一個物理節(jié)點上。
這個集群還需要有自動伸縮的功能。比如在白天活躍用戶眾多,集群會用盡量少的節(jié)點做深度學習的訓(xùn)練而用更多的節(jié)點去做深度學習的預(yù)測或者是一個web服務(wù)進程。
但是在晚上我們的用戶又比較少,閑置的機器就可以去做更多的機器學習的訓(xùn)練任務(wù)讓模型變得越來越好。
深度學習系統(tǒng)必須有一定的錯誤容忍能力。也就是說在運行過程中我們可以殺死任意多的訓(xùn)練節(jié)點,將機器騰出來保證其他的任務(wù)運行。
小欣:非常感謝于洋老師的講解,這期課程就到這里了。如果您喜歡這期課程就請大力點贊收藏或轉(zhuǎn)發(fā)~還可以在下方評論中留下您想要交流的想法和對本課程的建議~當然也歡迎嘉賓推薦或自薦,咱們下期再見!
【版權(quán)歸鈦媒體所有,未經(jīng)許可不得轉(zhuǎn)載】

賬號合并
經(jīng)檢測,你是“鈦媒體”和“商業(yè)價值”的注冊用戶?,F(xiàn)在,我們對兩個產(chǎn)品因進行整合,需要您選擇一個賬號用來登錄。無論您選擇哪個賬號,兩個賬號的原有信息都會合并在一起。對于給您造成的不便,我們深感歉意。
Oh! no
您是否確認要刪除該條評論嗎?