-->
第二課: AlphaGo所運用的技術(shù)
小欣:這節(jié)課,陳沛老師會為我們講解AlphaGo所運用了哪些技術(shù)。
陳沛:有很多人來問我AlphaGo到底是怎么下棋的,是不是鎖定在計算?首先它確實要鎖定在計算,跟李世石的比賽AlphaGo動用了2000臺的服務(wù)器同時進(jìn)行運算,應(yīng)該說它首先使用的云計算技術(shù)集中了相當(dāng)一部分通過網(wǎng)絡(luò)連接起來的計算資源。
比較而言的話,如果只用一臺服務(wù)器做運算需要一秒鐘的話,2000臺的話就可以大大降低它每次判斷的時間甚至使整個比賽得以進(jìn)行。所以利用云計算谷歌應(yīng)該可以動用大量的服務(wù)器,不光2000臺需要兩萬臺也是可以,所以現(xiàn)在應(yīng)該是用兩千臺服務(wù)器同時進(jìn)行運算參與這樣的頂級比賽。
第二、它使用了大數(shù)據(jù)。應(yīng)該說AlphaGo的上一個版本是1.0版本,它大量錄入了人類頂尖棋手的圍棋棋譜,可以說它繼承和學(xué)習(xí)了人類圍棋史上可以學(xué)習(xí)的圍棋知識。通過深度學(xué)習(xí)的方式變成它能夠理解的知識,然后應(yīng)用到它自己的實戰(zhàn)當(dāng)中,所以很顯然這也是一個大數(shù)據(jù)的成果。當(dāng)然很多人可能不一定都會下圍棋,很多人也不是都是懂得人工智能的。所以AlphaGo實際上是有一套非常好的人工智能技術(shù)來適應(yīng)圍棋的比賽,簡單說有兩個:一個是價值評判的網(wǎng)絡(luò),一個是搜索的網(wǎng)絡(luò)。然后找到每次決策它認(rèn)為最好的一個點,這個點是以勝利最高的點作為決策的依據(jù)。
我們可以這樣簡單理解AlphaGo怎么去跟人下棋的。當(dāng)人類下了一步棋的時候,它會在所有可能的選點中作出一個基礎(chǔ)的判斷,判斷哪些棋是可能思考的,但是什么樣的棋應(yīng)該思考的呢?它可能需要搜索的方法去驗證。比如說如果這個點是人類棋手經(jīng)常使用的或者是這次可能采用它自己學(xué)習(xí)系統(tǒng)來產(chǎn)生的一個重要的推薦點,根據(jù)這個推薦點會引發(fā)一系列的演變,而這些演變通過門特卡羅的搜索數(shù)不斷的去驗證,雙方相當(dāng)于是左右互博的方式都按照對方最好的應(yīng)對去演變下面的一些變化。當(dāng)這些變化演變到一定的步數(shù)之后,比如說20步、25步這樣的步數(shù)的時候它要對結(jié)果進(jìn)行評判,然后把結(jié)果反饋。
據(jù)說AlphaGo1.0版本的時候,它的學(xué)習(xí)過程是把人類的大量棋譜作為主要的依據(jù)。就是人類在這樣的情況下選擇什么樣的點進(jìn)行思考和判斷去進(jìn)行搜索和推演。這次AlphaGo2.0它實際上不再使用人類已有的棋譜,而是通過兩臺AlphaGo互相博奕互相學(xué)習(xí)的方式來產(chǎn)生知識推薦點。
我覺得這個過程是很容易理解的,因為早期AlphaGo完全不具有人類的知識,所以它需要大量棋譜的題。那么等它經(jīng)過1.0的比賽后它本身已經(jīng)成為人類的頂尖高手了,所以兩臺AlphaGo自己的相互博奕就可以作為推薦的依據(jù)了,所以很可能這次采用的是它用自己方式來生產(chǎn)的圍棋知識。
小欣:下節(jié)課,陳沛老師會為我們講解人工智能與人類的未來。
【版權(quán)歸鈦媒體所有,未經(jīng)許可不得轉(zhuǎn)載】

賬號合并
經(jīng)檢測,你是“鈦媒體”和“商業(yè)價值”的注冊用戶。現(xiàn)在,我們對兩個產(chǎn)品因進(jìn)行整合,需要您選擇一個賬號用來登錄。無論您選擇哪個賬號,兩個賬號的原有信息都會合并在一起。對于給您造成的不便,我們深感歉意。
Oh! no
您是否確認(rèn)要刪除該條評論嗎?