訂閱
糾錯(cuò)
加入自媒體

阿爾法狗打敗人類棋手不算啥 人工智能玩撲克更有難度

《終結(jié)者》、《我,機(jī)器人》和《A.I.人工智能》只是過(guò)去四十年中反映人工智能發(fā)展超過(guò)人類并導(dǎo)致人類毀滅這一主題的眾多電影中的幾個(gè)例子!睹绹(guó)新聞與世界報(bào)道》的Jeff Nesbit表示,雖然這種情況在近期內(nèi)發(fā)生的可能性仍然不大,但是很多人認(rèn)為這個(gè)主題里的第一部分——人工智能會(huì)超過(guò)人腦的水平,達(dá)到超級(jí)人工智能水平(artificial superintelligence,ASI)——這一情況將會(huì)在未來(lái)三十年內(nèi)的某個(gè)時(shí)刻實(shí)現(xiàn)。

ASI是否會(huì)導(dǎo)致人類的終結(jié)還有待觀察,但人工智能最近在撲克界取得了很大的突破。

AI與撲克大戰(zhàn)30年 為何現(xiàn)在才全面碾壓

人工智能與撲克的“戰(zhàn)斗史”可追溯到1984年,那一年,Mike Caro創(chuàng)建了一款名為Orac的基礎(chǔ)撲克人工智能軟件以征戰(zhàn)World Series of Poker(世界撲克系列賽,世界撲克比賽中一項(xiàng)最權(quán)威、最受尊重的賽事。WSOP與WPT,EPT并稱世界三大撲克賽事)。可以說(shuō),人工智能與撲克的“戰(zhàn)爭(zhēng)”已經(jīng)打了30多年。

從那時(shí)起,人工智能在撲克領(lǐng)域的發(fā)展勢(shì)頭非常迅猛,最近的一份信息圖以視覺(jué)化的方式提供了撲克領(lǐng)域人工智能研究進(jìn)展的深度介紹和統(tǒng)計(jì)概覽,同時(shí)提供了到目前為止研究提煉出的見(jiàn)解。

對(duì)人工智能而言 打敗牌手比打敗棋手更難

幾個(gè)月前,幾個(gè)在線撲克網(wǎng)站的社論撰稿人和社區(qū)經(jīng)理Josh Wardini在PokerSites博客上發(fā)表了題為《撲克和人工智能:機(jī)器對(duì)人類的興起》的信息圖。Wardini提供了在過(guò)去30年中撲克和人工智能之間關(guān)系的介紹。

人工智能應(yīng)用于策略游戲是最流行的方向。在過(guò)去二十年中,人工智能在各種游戲中擊敗了人類,包括國(guó)際象棋、圍棋和《危險(xiǎn)邊緣》(譯注:哥倫比亞廣播公司益智問(wèn)答游戲節(jié)目)。在過(guò)去十年中,大部分研究已轉(zhuǎn)向創(chuàng)造會(huì)玩撲克的人工智能程序。

你可能會(huì)問(wèn)的一個(gè)問(wèn)題是:為什么是撲克?

國(guó)際象棋大師Garry Kasparov在2010年發(fā)文指出了國(guó)際象棋和撲克的區(qū)別:國(guó)際象棋100%的信息博弈——兩個(gè)玩家都會(huì)同時(shí)獲知相同的數(shù)據(jù)信息——與計(jì)算機(jī)敏感的計(jì)算能力相比,玩撲克牌可以隱藏自己的牌,其中有很多變量和不確定性,概率、以假象迷惑對(duì)手的心理層面因素、風(fēng)險(xiǎn)管理等在撲克牌中十分關(guān)鍵。似乎是撲克完全基于人類心理活動(dòng)的方面令其在面對(duì)計(jì)算機(jī)時(shí)顯得無(wú)懈可擊。一臺(tái)機(jī)器可以很容易地計(jì)算出每一手牌的可能性或者概率,但在面對(duì)低概率同時(shí)卻是高賭注的時(shí)刻,人工智能卻并不占優(yōu)勢(shì)。

Wardini認(rèn)為,大學(xué)的人工智能部門是因?yàn)閾淇说膹?fù)雜性而對(duì)這種游戲進(jìn)行研究的。像許多現(xiàn)實(shí)生活中的情況一樣,“撲克要處理很多不完善信息”,并且人工智能的目標(biāo)是解決反映在撲克中的問(wèn)題。

Carnegie Mellon University (卡內(nèi)基梅隆大學(xué),CMU)博士生及人工智能研究員Noam Brown表示,在不限注的德州撲克單挑比賽中有10的163次方(10后面接著有163個(gè)零)不同的游戲情況,假設(shè)啟動(dòng)堆棧為20,000個(gè)芯片,那么即使是最強(qiáng)的計(jì)算機(jī)也不可能計(jì)算所有可能的情況。

人工智能在撲克上取得突破 Libratus戰(zhàn)勝頂級(jí)職業(yè)牌手

人工智能在撲克領(lǐng)域的研究主要來(lái)自University of Alberta(阿爾伯塔大學(xué)),University of Auckland(奧克蘭大學(xué))和前面提到的CMU。CMU在撲克界赫赫有名,其推出了兩款人工智能程序Claudico和Libratus,并在最近挑戰(zhàn)了一些頂級(jí)的撲克玩家。

雖然Claudico獲得了多場(chǎng)勝利,但在2015年,Claudico被一個(gè)由Doug Polk、Bjorn Li、Dong Kim和Jason Les四名玩家組成的團(tuán)隊(duì)擊敗,但Claudico也一路獲了多場(chǎng)勝利。

Doug Polk曾對(duì)《PokerNews》表示,Claudico“使用了一個(gè)非常復(fù)雜的策略,包括許多大大小小的賭注”,但人工智能技術(shù)還是存在一些漏洞。

經(jīng)過(guò)改進(jìn)迭代的Libratus,在2017年1月挑戰(zhàn)了四名頂級(jí)職業(yè)撲克玩家,Kim和Les回歸了第二場(chǎng)戰(zhàn)役,Jimmy Chou和Daniel McAulay加入了他們的團(tuán)隊(duì)。最后,Libratus擊敗了這一組世界級(jí)的德州撲克職業(yè)選手,并且是以每100手14倍大盲(譯者注:縮寫為14bb/100,意為玩100手牌,平均能贏對(duì)手14倍大盲注)完勝頂級(jí)人類玩家團(tuán)隊(duì)。在Libratus對(duì)人類玩家12萬(wàn)手牌的不限注德州撲克挑戰(zhàn)賽后,Libratus從四名職業(yè)玩家手中贏得了1,766,250美元的籌碼。

Dong Kim在比賽結(jié)束后接受了《PokerNews》Sarah Herring的采訪。他表示,“對(duì)于我們來(lái)說(shuō)真的很難玩。我們會(huì)提出一個(gè)策略,這個(gè)策略可能在當(dāng)天效果不錯(cuò),然后是第二天它就會(huì)帶來(lái)新的東西。我們則沒(méi)有為此做好準(zhǔn)備,所以總體來(lái)說(shuō)是真的、真的很艱難!

為什么會(huì)這樣?Libratus會(huì)進(jìn)行自我糾正,它每天晚上分析自己的打法,糾正錯(cuò)誤,并在第二天使用不同的策略,但這不是全部。

不同于之前的Claudico,Libratus依賴于一種算法,該算法使用了數(shù)百萬(wàn)內(nèi)核小時(shí)計(jì)算,這樣大量計(jì)算的實(shí)現(xiàn)要依靠的Pittsburgh Supercomputing Center(匹茲堡超級(jí)計(jì)算中心,PSC)“Bridges”源才變得有可能,它沒(méi)有使用固定的內(nèi)置策略。它也會(huì)隨機(jī)化自己的行為,使對(duì)手難以破譯它是否在虛張聲勢(shì)。最令人驚訝的是,Libratus不僅僅是一個(gè)人工智能在撲克領(lǐng)域的應(yīng)用程序,而是可以應(yīng)用于任何不完善的信息系統(tǒng),有無(wú)數(shù)潛在的應(yīng)用可能。

Kim承認(rèn)他的這個(gè)沒(méi)有血肉對(duì)手的能力令人印象深刻!叭斯ぶ悄芡娴煤芎,我認(rèn)為它有世界級(jí)的水平。”

當(dāng)被問(wèn)及他自己在打牌的時(shí)候可以使用哪些Libratus的策略時(shí),Kim解釋說(shuō),人工智能程序的混合策略使其難以對(duì)抗。

Kim表示,“有很多很好的東西,我都想要在我自己打牌的時(shí)候融會(huì)進(jìn)來(lái),但真的很難做到。Libratus有一些真的非常好的策略,但也是一個(gè)混合的策略,所以當(dāng)你用一個(gè)策略用得太多了一點(diǎn),那么你的這一點(diǎn)就會(huì)非常容易被人利用,所以一般來(lái)說(shuō)模仿或模擬很難,讓我們拭目以待吧!

Libratus經(jīng)常在其壓倒性的打法中使用超額下注。Kim表示,“它使用超額下注比任何人都多。如果是一個(gè)人類玩家,那么說(shuō)實(shí)在的,我們會(huì)認(rèn)為這個(gè)家伙完全是一個(gè)技術(shù)拙劣的玩家,因?yàn)樗眠@招用得太多了。”

“實(shí)際上,當(dāng)它超額下注的時(shí)候,它其實(shí)是在虛張聲勢(shì)。是的,它就是在大張旗鼓地虛張聲勢(shì)!

CMU的研究員Brown,在2016年3月向《PokerNews》解釋稱:“這并不令人驚奇(Libratus會(huì)虛張聲勢(shì)),因?yàn)殡娔X正在做的是模擬數(shù)以萬(wàn)億計(jì)手的牌,它對(duì)虛張聲勢(shì)的看法和我們并不一樣。它所做的只是反復(fù)地遇到這種情況,它注意到即使沒(méi)有很好的牌,仍然可以通過(guò)下注賺到更多的錢!

人工智能戰(zhàn)勝人類牌手的關(guān)鍵因素是什么?

雖然大多數(shù)撲克玩家不會(huì)很快就與人工智能正面交鋒,但是看看人工智能如何打敗人類玩家所使用的技巧倒是很有價(jià)值的。是什么讓諸如Libratus之類的人工智能程序表現(xiàn)得這么好?

在玩撲克時(shí)有一些情緒本身并不是壞事——在某些情況下甚至可能是有益的——從某種意義上來(lái)說(shuō),在這個(gè)游戲中,將成功的職業(yè)玩家和不賺不賠或者是虧錢的業(yè)余愛(ài)好者區(qū)分開(kāi)來(lái)的一個(gè)重要特征就是模仿人工智能的能力。

雖然大多數(shù)職業(yè)玩家和撲克教練都不會(huì)這樣說(shuō),但他們告訴有抱負(fù)的專業(yè)人士,在這個(gè)游戲中成功的關(guān)鍵是在游戲中做出決定時(shí)不要考慮錢。

2016年,Andrew Robl在《PokerNews》發(fā)表的一篇文章中,他表示要想成為一個(gè)成功的撲克玩家,應(yīng)該具備六個(gè)特征,其中五個(gè)可以說(shuō)是符合Libratus這樣的人工智能程序:經(jīng)驗(yàn)、智力、欲望和學(xué)習(xí)的意愿(除掉欲望部分)、控制情緒的能力以及進(jìn)行了次數(shù)多到令人想吐的比賽。

不過(guò),第六個(gè)特征只適用于人類——社交和人際交往技能。人工智能在這部分的表現(xiàn)是糟糕的——至少在目前是這樣。

在情緒控制方面,人工智能相比于人類擁有明顯的優(yōu)勢(shì),包括偏見(jiàn)和疲勞因素在內(nèi)。而當(dāng)Libratus在連續(xù)落敗的時(shí)候,它不會(huì)生氣或者是感到沮喪,更不會(huì)毆打?qū)κ只蛘呤窃诤竺娴膶?duì)抗中狀態(tài)不佳。在經(jīng)歷了漫長(zhǎng)的一整天磨礪之后,它不會(huì)感到精力不濟(jì),更不會(huì)因此犯下錯(cuò)誤。因此它是更好的玩家。

在同Libratus進(jìn)行了對(duì)抗之后,Kim的一個(gè)評(píng)論凸顯出了人工智能與人類之間的關(guān)鍵區(qū)別:“我們并沒(méi)有想到會(huì)輸這么多,這是非常艱難的部分……這并不一定是因?yàn)槿斯ぶ悄鼙旧。而是不斷地輸,?duì)伍的士氣非常低落。”

同時(shí),Libratus不斷根據(jù)經(jīng)驗(yàn)調(diào)整策略,始終如一地發(fā)揮最佳水平。

人工智能無(wú)法感覺(jué)到錢的價(jià)值,這讓它們能夠免受風(fēng)險(xiǎn)的影響,并且總是能夠?qū)崿F(xiàn)“正確的”游戲理論最優(yōu)(GTO策略),即使在風(fēng)險(xiǎn)回報(bào)比例非常糟糕的情況下也是如此。這導(dǎo)致它們會(huì)大量使用虛張聲勢(shì)的戰(zhàn)術(shù)。

Libratus無(wú)論風(fēng)險(xiǎn)如何,都會(huì)做出最好的決定,它們沒(méi)有資金管理的概念,也不需要支付賬單,這也有助于它們做到這一點(diǎn)。

戰(zhàn)勝人類牌手也只是開(kāi)始

Libratus的共同創(chuàng)始人Tuomas Sandholm在Carnegie Mellon(卡內(nèi)基.梅。┑囊环莩霭嫖镏性u(píng)估了人工智能的勝利產(chǎn)生的影響。

他表示,“人工智能根據(jù)不完美的信息進(jìn)行策略推理的能力現(xiàn)在已經(jīng)超過(guò)了人類。”

Polk在接受《PokerNews》采訪時(shí)回應(yīng)了這種情緒,他注意到的Claudico的漏洞在Libratus中被修復(fù)了。

“對(duì)于我來(lái)說(shuō),現(xiàn)在事情已經(jīng)很清楚了,人類在不限注德州撲克單挑比賽中落后于形勢(shì)變化,我認(rèn)為這種情況將繼續(xù)以其他形式發(fā)生。”

CMU的計(jì)算機(jī)科學(xué)系主任Frank Pfenning表示,融入虛張聲勢(shì)是一個(gè)關(guān)鍵概念,因?yàn)闆](méi)有這項(xiàng)能力就無(wú)法取勝。他說(shuō)道,“開(kāi)發(fā)一個(gè)能夠成功做到這一點(diǎn)的人工智能程序是科學(xué)前進(jìn)的一個(gè)巨大進(jìn)步。想象一下,有朝一日你的智能手機(jī)能夠?yàn)槟阋I的新車談判得到最優(yōu)惠的價(jià)格。這還只是開(kāi)始。”

通過(guò)人工智能訓(xùn)練牌手

看起來(lái)我們可以從這些會(huì)玩撲克的人工智能程序身上學(xué)到很多東西,但是不要矯枉過(guò)正——有一些撲克技巧,我們?nèi)祟惐葯C(jī)器更好。

雖然人工智能非常擅長(zhǎng)通過(guò)模擬數(shù)萬(wàn)億手牌來(lái)實(shí)現(xiàn)游戲理論最優(yōu)(GTO策略),但是由于針對(duì)特定對(duì)手,人工智能可獲得手牌的樣本數(shù)量有限,在對(duì)個(gè)人對(duì)手采用針對(duì)弱點(diǎn)的策略的能力較差。

Brown表示,“這是一個(gè)積極的研究領(lǐng)域,如何利用對(duì)手有限數(shù)量的樣本。我們不知道為什么人類玩家非常精于此道,這可能是人工智能的一個(gè)重要的薄弱環(huán)節(jié)!

雖然撲克玩家可能會(huì)因?yàn)閾?dān)心沒(méi)有情緒的人工智能會(huì)賺走他們所有的錢而感到擔(dān)心震驚,但這些程序的發(fā)展實(shí)際上可以對(duì)他們的盈虧情況產(chǎn)生積極的影響。Wardini提到存在“人工智能模擬和培訓(xùn)軟件可以幫助人類”,包括幫助玩家開(kāi)發(fā)一種“平衡的、沒(méi)有漏洞可被利用的方法”并采用“更好的決策”來(lái)提高他們的游戲水平。

1  2  下一頁(yè)>  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)