卡耐基梅隆大學計算機系教授、德?lián)銩I之父 Tuomas Sandholm

“人工智能時代,針對機器的算法是機器學習,針對人類的算法是博弈論。”這是清華大學交叉信息研究院青年千人助理教授、博士生導師、計算經(jīng)濟學研究室主任唐平中,在2017年7月20日鈦媒體與杉數(shù)科技聯(lián)合舉辦的“AI大師圓桌會之AI時代的博弈與行為分析”活動上提出的觀點。

唐平中在加入清華之前,于美國卡耐基梅隆大學計算機系從事博士后研究工作,師從德?lián)銩I之父Tuomas Sandholm,從事人工智能、電子商務和機制設計的研究工作。

Tuomas Sandholm是卡耐基梅隆大學計算機系教授,研究興趣包括人工智能、機制設計、優(yōu)化理論、博弈論、電子商務、多代理系統(tǒng)、自動談判及合同等廣泛領域,迄今已經(jīng)發(fā)表450多篇論文,還是Optimized Markets和Strategic Machine兩家公司的創(chuàng)始人。

Tuomas Sandholm 在“AI時代的博弈與行為分析”圓桌會上,分享了在他帶領下完成的人工智能系統(tǒng)Libratus(中文名:冷撲大師)及其在今年以來擊敗全球德州撲克世界高手的經(jīng)歷。

Tuomas表示,Libratus系統(tǒng)結合了優(yōu)化的博弈論和機器學習等算法,是迄今為止唯一擊敗人類德州撲克世界最頂級高手的人工智能系統(tǒng),在戰(zhàn)略推理和戰(zhàn)略思維方面達到了超越人類的水平。

與AlphaGo圍棋的完美信息場景不同,德州撲克是典型的非完美信息場景,已經(jīng)挑戰(zhàn)人工智能+博弈論數(shù)十年之久。Tuomas表示,Libratus算法無應用領域限制,可廣泛應用到多種商業(yè)與經(jīng)濟場景中。

在此次圓桌會上,除了唐平中和Tuomas Sandholm,上海財經(jīng)大學教授、奧數(shù)金牌、杉數(shù)科技科學家何斯邁與上海財經(jīng)大學交叉科學研究院院長、杉數(shù)科技首席科學家葛冬冬以及不列顛哥倫比亞大學(UBC)Sauder商學院助理教授丁弋川等也進行了分享。

博弈AI大時代的崛起

清華大學交叉信息研究院青年千人助理教授、博士生導師、計算經(jīng)濟學研究室主任唐平中

有人的地方就有博弈。從囚徒困境到智豬博弈再到美女的硬幣,博弈論一再說明一個道理,就是人類的思維不同于機器,特別由于人類的社會化屬性,但凡有兩個人以上的地方就充滿著博弈的思想。因為有人的地方就有競爭,有競爭就有博弈。

作為數(shù)據(jù)、計算機與經(jīng)濟學的交叉學科,博弈論已經(jīng)成為經(jīng)濟學的標準分析工具之一,在金融學、證券學、生物學、經(jīng)濟學、國際關系、計算機科學、政治學、軍事戰(zhàn)略和其它很多領域都有廣泛的應用。博弈分為合作博弈與非合作博弈、完全信息博弈與非完全信息博弈、靜態(tài)博弈與動態(tài)博弈等多種類型。

唐平中表示,博弈論在西方已經(jīng)有近90年的歷史,而在中國則是于近5年得到了廣泛的關注和應用。從2009年開始的互聯(lián)網(wǎng)廣告拍賣設計算法,使博弈論在國內經(jīng)濟界得到了重視,如今國內工業(yè)界對博弈AI的算法也有大量的需求。

究其原因是在研究人工智能的時候,發(fā)現(xiàn)僅處理針對機器的算法遠不能滿足實際商業(yè)的需求,在現(xiàn)代商業(yè)中往往是“人+機器”的復雜場景,而博弈論恰好是針對人類的智能算法。

丁弋川在解讀Tuomas Sandholm對AI的觀點時,強調博弈論與最優(yōu)化決策的結合。正如Tuomas Sandholm所解釋,博弈論本身只是一個描述性工具,并不做出具體的決策,而最優(yōu)化決策則指出每一步的最優(yōu)化結果,但同時并沒有考慮對方的情況,AI就把二者結合起來做出二人博弈時的最優(yōu)化決策平衡點。

這就是德州撲克在人工智能學術上不亞于甚至是超過AlphaGo的意義所在,它提供了一種新模型去分析在沒有或缺乏信息的情況下,如何計算平衡點。

Tuomas Sandholm強調,撲克游戲本身就是非完美信息的場景,德州撲克更是非完美信息的典型場景。在德州撲克進行的過程中,缺乏甚至沒有任何數(shù)據(jù),在這種情況如何計算出每一步的最優(yōu)平衡點,同時還要考慮進對手的每一步情況。德州撲克有10的161次方個決策點,是非完美信息博弈算法的標準測試場景,國際上一直有學術團隊在挑戰(zhàn)這一場景。

葛冬冬介紹說,在杉數(shù)科技從事項目算法開發(fā)與實施的過程,發(fā)現(xiàn)很多現(xiàn)實中的商業(yè)問題不僅僅需要考慮最優(yōu)化,很多時候還需要考慮到人類的行為,這些人類行為將給問題的解決帶來額外的難度。

比如在考慮電商定價的時候,不僅要根據(jù)以前的價格歷史來計算未來的最優(yōu)價格,還要考慮到與顧客和競爭對手的反應。當價格低的時候,電商顧客會根據(jù)情況囤積自己的小庫存,便宜就多買、不便宜就不買,同時競爭對手也會實時比價跟隨定價。因此,在新零售等場景中,不再僅僅是數(shù)據(jù)驅動,還要考慮復雜情況下的顧客和競爭對手博弈等,這就應用了很多AI技巧。

博弈AI的崛起,正是復雜商業(yè)需求驅動的結果。

冷撲大師:超人類的機器戰(zhàn)略思維

上海財經(jīng)大學教授、奧數(shù)金牌、杉數(shù)科技科學家何斯邁

2017年1月,在賓夕法尼亞州匹茲堡的賭場里,Libratus冷撲大師挑戰(zhàn)了世界排名前15中的4位“一對一無限注”德州撲克人類高手,在設計了非常保守的對人類極為友好的對戰(zhàn)環(huán)境后,Libratus在20天賽程內一共進行了12萬手牌比賽,最后Libratus以絕對優(yōu)勢戰(zhàn)勝4位人類選手。

2017年4月,Libratus應邀以“冷撲大師”之名到中國與來自中國的一組撲克、AI和計算機高手組成的“龍之隊”對決,冷撲大師最終以792,327總記分牌的戰(zhàn)績獲勝,獲得了此次表演賽的200萬獎勵。Libratus冷撲大師完勝中外的德州撲克高手,說明其代表的博弈AI算法已經(jīng)到了相當成熟的高度。

Tuomas Sandholm在“AI時代的博弈與行為分析”分享會上介紹了Libratus的歷史,這是一項長達12年的研究。

從最早的2005年Rhode Island Hold’em撲克游戲起步,該游戲是一種小型的撲克游戲,但也有高達31億個決策節(jié)點,具備大型德州撲克的許多特征。Tuomas Sandholm與Andrew Gilpin于2005年在AAAI會議上發(fā)表了論文,介紹了該項研究的初步成果。

從2005年起步,Tuomas Sandholm和團隊在2014年5月推出了Tartanian7人工智能系統(tǒng)并贏得了2014年ACAP計算機撲克大賽,2015年4月推出了下一代Claudico人工智能系統(tǒng),但Claudico在2015年敗給了人類選手。

2015年12月推出的下一代Baby Tartanian8贏得了2016年ACAP大賽,接著又推出了Tartanian8。最后,就是2017年1月的Libratus贏得了人機對戰(zhàn)的勝利。

Libratus包括了三個模塊,分別是賽前的游戲規(guī)則抽取和納什均衡近似,賽中用到的殘局解算(Endgame Solving)以及持續(xù)自我強化。

博弈論中的納什均衡主要指博弈雙方的理性參與者都不會有單獨改變策略的沖動,而該系統(tǒng)中采用納什均衡,使得不論對手用什么樣的策略,都不能取勝。

在前期尋求納什均衡的過程中,采用了CFR算法(Counterfactual Regret Minimization,反事實遺憾最小化)的強化學習,這是一個源自心理學的算法,即“如果當初做了另外一種選擇就好了”的反向思考方式,這種強調試錯的方法可以讓機器自己和自己玩大量游戲。

通過CFR算法,Tuomas Sandholm向Libratus描述了游戲規(guī)則后,經(jīng)過幾個月的隨機訓練100萬億手牌后,達到了足以挑戰(zhàn)最優(yōu)秀人類選手的水平,還開發(fā)出了一些人類沒有的玩法。

而在殘局解算中,Libratus的改進算法包括考慮進了對方所犯下的錯誤、盡早開始殘局解算、對手每出一招即實時展開殘局解算(Nested Endgame Solving)等等。

而在持續(xù)自我強化模塊,Libratus在比賽的每晚不是分析對手的問題,而是總結自己當天的主要敗筆,這就好像人類每天總結自己的弱點再有針對性的彌補,這樣自己的弱點越來越少,給對手的可趁之機也越來越少,這種主動防守型的打法,最壞的結果就是雙方打成平手,所謂納什均衡追求的就是一種平衡。

當然,12年的研究成果并不是聊聊幾句就可以完全解釋清楚。除了主要算法的改進外,Libratus在計算方面也有所改進以適應龐大的分布式計算需求。根據(jù)匹茲堡超算中心的數(shù)字,Libratus約使用了150臺服務器。隨著硬件能力的提升,Libratus有望使用越來越少的計算資源,甚至將來有可能運行在手機里。

打開非完美信息世界之門

上海財經(jīng)大學交叉科學研究院院長、杉數(shù)科技首席科學家葛冬冬(左),不列顛哥倫比亞大學(UBC)Sauder商學院助理教授丁弋川(右)

Libratus是博弈AI的最新成果和高度,當然這并不意味著Libratus就已經(jīng)完美。Libratus針對的是一對一比賽的場景,主要是納什均衡即針對一對一對場景,在多人博弈場景下納什均衡就不太適用。此外,Libratus針對的是每場重置籌碼的比賽,而人類不重置籌碼的比賽也未必適用。

盡管Libratus還有局限性,但Libratus至少打開非完美信息世界的大門。

目前Libratus已經(jīng)取得的成就,可以通過機器自動化的方式在很多商業(yè)場景中替人類做出戰(zhàn)略決策和最優(yōu)化策略選擇,這就是人工智能夢寐以求的決策自動化。

Tuomas Sandholm表示,如果機器能夠替代人類做出戰(zhàn)略決策,那么結合深度學習的機器學習,就可以形成自動化的學習-決策-再學習-再決策的閉環(huán),這才是完整的人工智能算法。

何斯邁介紹了杉數(shù)科技在新零售行業(yè),特別是收益和庫存管理中應用博弈論和人工智能的例子。

很多國內企業(yè)開始進入數(shù)字化和數(shù)據(jù)化時代,基于數(shù)據(jù)積累要開始量化管理,需要用到博弈AI算法。比如根據(jù)友商價格、顧客價格敏感度、顧客心理價位、季節(jié)性、產(chǎn)品替代及互補性、促銷及拉升效應等多種量價關系要素來進行動態(tài)博弈,解決方案包括使用網(wǎng)絡爬蟲及機器學習來捕捉友商實際價格及分析友商價格策略,分析產(chǎn)品市場定位(主導者/跟隨者/競爭者),再尋找遠期利益與近期利益的動態(tài)平衡點。

何斯邁表示,現(xiàn)在普遍商業(yè)企業(yè)的規(guī)模很大,在一個調度管理問題的實例中,可能涉及決策變量就有上百萬個,而且對實時性要求非常高,必須在秒級別完成上百萬個決策變量的問題求解。何斯邁一直在杉數(shù)科技進行這方面的工作。

葛冬冬也強調,在杉數(shù)科技等的推動下,特定類型問題中百萬級變量的整數(shù)規(guī)劃問題求解,可以在1秒鐘完成。實際上,對整數(shù)規(guī)劃來說,哪怕只有幾百個變量都求解都非常困難,極端情況下最好的商業(yè)軟件也需要很長時間才能計算出來。

杉數(shù)這方面的進展,是與斯坦福大學的葉蔭宇教授、喬治亞理工的藍光輝教授、上海財經(jīng)大學的“Leaves”優(yōu)化實驗室長期艱苦合作,才能實現(xiàn)特定場景下秒級百萬規(guī)模變量的最優(yōu)化求解。

有了Libratus這樣成熟的博弈AI算法,其算法并沒有行業(yè)領域的應用限制,再加上超大規(guī)模最優(yōu)化問題秒級求解的工程化能力,就能在戰(zhàn)略定價、產(chǎn)品組合優(yōu)化、金融、商業(yè)談判、業(yè)務戰(zhàn)略、下一代安全、拍賣、醫(yī)療健康等廣泛的非完美信息場景中實現(xiàn)機器決策+機器學習的完整人工智能體系,這將對整個社會、經(jīng)濟和商業(yè)帶來深遠的影響。(本文首發(fā)鈦媒體)

本文系作者 吳寧川 授權鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉載請注明出處、作者和本文鏈接。
本內容來源于鈦媒體鈦度號,文章內容僅供參考、交流、學習,不構成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內容
  • ai崛起

    回復 2017.07.29 · via android
  • 人工智能最先要實現(xiàn)在商業(yè)的落地 要有具體的產(chǎn)品 這樣才能有好的商業(yè)模式

    回復 2017.07.29 · via pc
  • 這個要是成了,我們大部分運營都要下崗了??

    回復 2017.07.29 · via iphone

快報

更多

11:28

光纖概念快速回暖,杭電股份漲停

11:23

2025年中國科幻產(chǎn)業(yè)總營收達1261億元,連續(xù)三年突破千億大關

11:21

電網(wǎng)設備概念盤中震蕩回升,長高電新漲停

11:21

零跑A10全球上市,售價6.58萬元起

11:20

智己LS8開啟預售,價格25.98萬-30.98萬元

11:07

港股鋰電股走強,贛鋒鋰業(yè)漲超7%

11:03

九號公司:與泡泡瑪特達成合作,聯(lián)名電動車將于4月推出

11:02

滬深京三市成交額超1萬億元,較上日此時縮量952億元

10:48

證監(jiān)會首席律師程合紅:開展新一輪公司治理專項行動,加強對減持、程序化交易等市場交易活動的監(jiān)督管理

10:47

證監(jiān)會首席律師程合紅:配合司法機關研究制定內幕交易、操縱市場民事?lián)p害賠償司法解釋,加大先行賠付制度適用力度

10:44

港股恒生科技指數(shù)漲幅擴大至1%

10:43

鋰礦板塊震蕩走高,融捷股份漲停

10:43

全國社?;鹄硎聲簜€別組合持有單只股票時間最長達到20年

10:34

證監(jiān)會:資本市場理性投資、價值投資、長期投資的法治基礎進一步夯實

10:33

證監(jiān)會:2025年中長期資金新增入市規(guī)模超一萬億

10:31

社?;饡菏冀K保持戰(zhàn)略定力,堅持長期投資、價值投資、責任投資

10:30

鋰礦概念反復活躍,江特電機直線漲停

10:24

騰訊湯道生:Harness工程能力是AI落地關鍵變量

10:18

商業(yè)航天概念震蕩拉升,神劍股份2連板

10:15

創(chuàng)新藥概念持續(xù)走高,科拓生物20cm漲停

3

掃描下載App