【鈦媒綜合】AI 和人類的較量再一次展開了。
1月28日上午消息,谷歌今日召開全球電話會議,旗下Deep MInd創(chuàng)始人戴密斯·哈薩比斯(Demis Hassabis)宣布了谷歌在人工智能領(lǐng)域的重要進展:開發(fā)出一款能夠在圍棋中擊敗職業(yè)選手的程序——AlphaGo,后者能夠通過機器學(xué)習(xí)的方式掌握比賽技巧。
而同樣,在今天國際頂尖期刊《自然》報道了谷歌所開發(fā)的這款新圍棋AI。這款名為AlphaGo(翻譯為阿爾法圍棋)的人工智能,在沒有任何讓子的情況下以5:0完勝歐洲冠軍,職業(yè)圍棋二段樊麾,樊麾出生于中國,目前是法國國家圍棋隊總教練,已經(jīng)連續(xù)三年贏得歐洲圍棋冠軍的稱號。
AlphaGo與歐洲圍棋冠軍樊麾的5局較量
除此之外,研究者也讓AlphaGo和其他的圍棋AI進行了較量,在總計495局中只輸了一局,勝率是99.8%。它甚至嘗試了讓4子對陣Crazy Stone,Zen和Pachi三個先進的AI,勝率分別是77%,86%和99%。
計算機和人類競賽在棋類比賽中已不罕見,在三子棋、跳棋和國際象棋等棋類上,計算機都先后完成了對人類的挑戰(zhàn)。根據(jù)資料顯示,1997年,國際象棋AI第一次打敗頂尖的人類;2006年,人類最后一次打敗頂尖的國際象棋AI;但對擁有2500多年歷史的圍棋而言,計算機在此之前從未戰(zhàn)勝過人類。
AI下圍棋,是如何通過計算來打敗人類的?
圍棋看起來棋盤簡單、規(guī)則不難。棋盤縱橫各19條等距離、垂直交叉的平行線,共構(gòu)成19×19(361)個交叉點。比賽雙方交替落子,目的是在棋盤上占據(jù)盡可能大的空間。圍棋最大有3^361 種局面,大致的體量是10^170,而已經(jīng)觀測到的宇宙中,原子的數(shù)量才10^80。國際象棋最大只有2^155種局面,稱為香農(nóng)數(shù),大致是10^47。
那么AI是如何攻破人類的呢?根據(jù)果殼網(wǎng)上作者“開明”的文章解釋,面對任何棋類,一種直觀又偷懶的思路是暴力列舉所有能贏的方案,這些方案會形成一個樹形地圖。AI只要根據(jù)這個地圖下棋就能永遠勝利。
然而,圍棋一盤大約要下150步,每一步有250種可選的下法,所以粗略來說,要是AI用暴力列舉所有情況的方式,圍棋需要計算250^150種情況,大致是10^360。相對的,國際象棋每盤大約80步,每一步有35種可選下法,所以只要算35^80種情況,大概是10^124。無論如何,枚舉所有情況的方法不可行,所以研究者們需要用巧妙的方法來解決問題,他們選擇了模仿人類大師的下棋方式。
機器學(xué)習(xí)研究者們祭出了終極殺器——“深度學(xué)習(xí)”(Deep Learning)。深度學(xué)習(xí)是目前人工智能領(lǐng)域中最熱門的科目,它能完成筆跡識別,面部識別,駕駛自動汽車,自然語言處理,識別聲音,分析生物信息數(shù)據(jù)等非常復(fù)雜的任務(wù)。
AlphaGo 的核心是兩種不同的深度神經(jīng)網(wǎng)絡(luò)。“策略網(wǎng)絡(luò)”(policy network)和 “值網(wǎng)絡(luò)”(value network)。它們的任務(wù)在于合作“挑選”出那些比較有前途的棋步,拋棄明顯的差棋,從而將計算量控制在計算機可以完成的范圍里,本質(zhì)上和人類棋手所做的一樣。
其中,“值網(wǎng)絡(luò)”負責減少搜索的深度——AI會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線,不用一條道算到黑;而“策略網(wǎng)絡(luò)”負責減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。將這些信息放入一個概率函數(shù),AI就不用給每一步以同樣的重視程度,而可以重點分析那些有戲的棋著。
AlphaGo利用這兩個工具來分析局面,判斷每種下子策略的優(yōu)劣,就像人類棋手會判斷當前局面以及推斷未來的局面一樣。這樣AlphaGo在分析了比如未來20步的情況下,就能判斷在哪里下子贏的概率會高。
研究者們用許多專業(yè)棋局訓(xùn)練AI,這種方法稱為監(jiān)督學(xué)習(xí)(supervised learning),然后讓AI和自己對弈,這種方法稱為強化學(xué)習(xí)(reinforcement learning),每次對弈都能讓AI棋力精進。然后他就能戰(zhàn)勝冠軍啦!
人類在下棋時有一個劣勢,在長時間比賽后,他們會犯錯,但機器不會。而且人類或許一年能玩1000局,但機器一天就能玩100萬局。所以AlphaGo只要經(jīng)過了足夠的訓(xùn)練,就能擊敗所有的人類選手。
被打敗的歐洲冠軍樊麾是什么樣的水平?
值得注意的是,在AlphaGo打敗歐洲冠軍之后,谷歌同時還宣布將在今年三月挑戰(zhàn)韓國圍棋選手李世石,李世石是圍棋九段高手,也是近10年來獲得世界第一頭銜最多的棋手,谷歌為此提供了100萬美元作為獎金。
根據(jù)谷歌自己的評估,目前AlphaGo的實力只在職業(yè)二段左右,其打敗的歐洲冠軍也只有二段,而韓國圍棋選手李世石卻是九段,無疑二段與九段之間的實力甚為懸殊。李世石對谷歌的這一挑戰(zhàn)表示非常期待,并且認為自己一定會贏。
同時,知乎上有匿名用戶分析:
如上圖,歐洲冠軍Hui Fan的水平目測是二段左右,而最強的AlphaGo distributed大概是五段,這和“擊敗人類”的目標還有點距離(其他非隨機類游戲,機器都能輕松擊敗最強的人類大師)。所以還是等三月和李世石的五番棋吧。
盡管AlphaGo尚有一個月時間學(xué)習(xí),但是假設(shè)圍棋的技巧是有限的話,無論是人學(xué)習(xí)還是機器學(xué)習(xí)一定是一條漸近線,即使AlphaGo在三月的挑戰(zhàn)中輸了這場比賽,這仍舊是AI發(fā)展史中一件極具標志性的事情。
PS:本文分析部分內(nèi)容綜合自果殼專欄、知乎用戶,點擊鏈接可產(chǎn)看原回答,更多觀點可見鈦媒體文章《人工智能如何一步步走來,直到挑戰(zhàn)歐洲圍棋冠軍》






快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論
不要過度解讀
我覺得這個不公平,這是一場一個人和一群的比拼,人工智能好比是一群棋手和一個頂尖棋手的對持,就算是贏了也沒什么好炫耀的。這是計算機天然的優(yōu)勢大數(shù)據(jù)分析,有什么好說的嘛!
人工智能發(fā)展更快
你亂下他就完了。