還記得AlphaGo在圍棋上戰(zhàn)勝人類(lèi)那時(shí)候的轟動(dòng)嗎?現(xiàn)在一個(gè)名叫Pluribus的AI,在和世界撲克牌冠軍對(duì)戰(zhàn)的時(shí)候,完勝了人類(lèi)。
也許你會(huì)認(rèn)為AI能戰(zhàn)勝人類(lèi)在今天已經(jīng)是司空見(jiàn)慣的事了。但這次具有突破性的是,這場(chǎng)對(duì)戰(zhàn)不再是一對(duì)一,對(duì)手是15名人類(lèi)頂尖撲克玩家。這也是AI首次在超過(guò)兩個(gè)人的游戲中擊敗人類(lèi)玩家。
這次的德州撲克比賽為期12天,比賽撲克牌有超過(guò)10,000,以六人無(wú)限制玩法,Pluribus和15名頂尖玩家以?xún)煞N模式開(kāi)展比賽。
▲Pluribus和五名職業(yè)撲克玩家對(duì)抗
第一種模式是1個(gè)Pluribus和5個(gè)人類(lèi)玩家組賽,第二種模式是1個(gè)人類(lèi)玩家和 5個(gè)Pluribus 組賽(每個(gè)Pluribus獨(dú)立并沒(méi)有相互配合)。第二種模式參賽的是2名作為撲克的傳奇人物——Darren Elia和Chris Ferguson,后者曾獲得6次世界冠軍。
比賽的結(jié)果是,Pluribus全盤(pán)獲勝。
假如它是人類(lèi)玩家,按一個(gè)籌碼值1美元,便能以每小時(shí)1,000美元的驚人速度不斷贏錢(qián)。
Pluribus由Facebook的人工智能團(tuán)隊(duì)和卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)系人員共同研發(fā),早在兩年前他們已經(jīng)研發(fā)出了Libratus的撲克游戲系統(tǒng),一直都是德州撲克的單挑賽中的世界贏家。
在和單個(gè)人類(lèi)比賽中,博弈論能為AI提供最佳策略,因此 AI 可以完全掌控通往勝利的“特定路線(xiàn)”,通過(guò)預(yù)測(cè)每次游戲結(jié)束的結(jié)果,從而為下一步的行為作決定。
但這對(duì)于涉及多方利益且沒(méi)有明確條件的多人游戲場(chǎng)景并不適用。
由于Libratus難以確定所有玩家手里有什么牌,也不能了解對(duì)手的內(nèi)心想法,從而無(wú)法捉摸對(duì)手是試探或是虛張聲勢(shì),不能準(zhǔn)確預(yù)知他們的每一個(gè)投注決定,因此游戲可以說(shuō)是呈指數(shù)級(jí)地復(fù)雜化。
研究人員在Libratus的基礎(chǔ)上構(gòu)建了Pluribus,它的不同之處在于新使用了一種稱(chēng)為搜索功能的機(jī)制,能夠?qū)酉聛?lái)的未知行為進(jìn)行展望,而不是在預(yù)測(cè)最終結(jié)果后反推。
在同時(shí)應(yīng)對(duì)其余幾名玩家的復(fù)雜性之下,這種短期的敏銳性恰恰是最大的優(yōu)勢(shì)。
從Libratus到Pluribus的進(jìn)步,可以發(fā)現(xiàn)AI隨著進(jìn)步,能夠使用更少的資源和更低的成本去制造。
比起動(dòng)輒十萬(wàn)美元的先進(jìn)系統(tǒng),Pluribus短短8天內(nèi)創(chuàng)建,在云服務(wù)器上培訓(xùn)也只用了不到150美元的費(fèi)用。如今的Pluribus只用兩個(gè)CPU就能運(yùn)行,而2016年的AlphaGo系統(tǒng)需要使用1,920個(gè)CPU才贏得游戲,而且Pluribus占用內(nèi)存不到 128 GB,平均只需20秒就能下決定,速度是職業(yè)撲克玩家的兩倍。
這次的成果也是展現(xiàn)了AI研究的巨大進(jìn)展。由于撲克游戲隱藏了信息和運(yùn)氣元素,與人對(duì)弈時(shí),它不能只是計(jì)算人類(lèi)行為,而是要超越人類(lèi)的行為。目前證明Pluribus已經(jīng)可以對(duì)抗多個(gè)該領(lǐng)域內(nèi)的頂尖人類(lèi),研究人員表示,客觀上來(lái)說(shuō),AI已經(jīng)被證明可以稱(chēng)為“超人”了。
對(duì)于后續(xù)的發(fā)展,聯(lián)合開(kāi)發(fā)者Noam Brown認(rèn)為Pluribus已經(jīng)到達(dá)了撲克游戲的極限,完成了最后一個(gè)挑戰(zhàn)。接下來(lái),這個(gè)技術(shù)將在更多場(chǎng)景被用到。例如網(wǎng)絡(luò)安全、欺詐檢測(cè)、金融談判等等,甚至還可以幫自動(dòng)駕駛汽車(chē)導(dǎo)航交通。
畢竟AI能在多人場(chǎng)景中使用,還能處理隱藏信息的能力,才更符合現(xiàn)實(shí)生活中的挑戰(zhàn)。撲克游戲只是提供了一個(gè)現(xiàn)實(shí)世界的模型。
不過(guò)它的算法代碼就不會(huì)公開(kāi)了,畢竟一旦公開(kāi),可能會(huì)毀掉所有撲克牌的世界了。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7536瀏覽量
88642 -
人工智能
+關(guān)注
關(guān)注
1796文章
47674瀏覽量
240293
原文標(biāo)題:15名世界頂尖的撲克牌玩家,都輸給了同一個(gè)對(duì)手。
文章出處:【微信號(hào):luomajqrxt,微信公眾號(hào):機(jī)器人學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論