那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AlphaZero:一個算法通吃三大棋類

電子工程師 ? 來源:lq ? 2018-12-17 16:08 ? 次閱讀

近日,谷歌旗下的人工智能實驗室DeepMind研究團隊在《科學》雜志上發表封面論文,公布了通用算法AlphaZero和測試數據。《科學》雜志評價稱,通過單一算法就能夠解決多個復雜問題,是創建通用的機器學習系統、解決實際問題的重要一步。該論文的作者包括AlphaGo的核心研發人員戴維·席爾瓦(David Silver)和DeepMind創始人戴密斯·哈薩比斯(Demis Hassabis)等。

2018年12月7日的《科學》雜志封面

AlphaGo首次為人們所熟知是2016年與圍棋世界冠軍李世石進行圍棋人機大戰,并最終以4比1的總比分獲勝。實際上早在2016年1月谷歌就在國際學術期刊《自然》雜志上發表封面文章,介紹AlphaGo在沒有任何讓子的情況下以5:0完勝歐洲冠軍、職業圍棋二段樊麾。

2016年1月28日《自然》雜志封面

2017年10月18日,DeepMind團隊公布了最強版阿爾法圍棋,代號AlphaGo Zero。彼時DeepMind表示,棋類AI的算法主要基于復雜的枚舉,同時需要人工進行評估,人們在過去幾十年內已經將這種方法做到極致了。而AlphaGo Zero在圍棋中的超人表現,則是通過與自己下棋練習出來的。

現在DeepMind研究團隊將這種方法推廣到AlphaZero的算法中,AlphaZero最長花了13天“自學成才”,隨后與世界冠軍級的棋類AI對決:

在國際象棋中,AlphaZero在4個小時后首次擊敗了第九季TCEC世界冠軍Stockfish。

在日本將棋中,AlphaZero在2小時后擊敗了將棋聯盟賽世界冠軍Elmo。

在圍棋上,AlphaZero經過30個小時的鏖戰,擊敗了李世石版AlphaGo。

AlphaZero:一個算法通吃三大棋類

AlphaGo的前幾代版本,一開始都是與人類棋手的棋譜進行上千盤的訓練,學習如何下圍棋。到了AlphaGo Zero則跳過了這個步驟,通過自我對弈學習下棋,從零學起。系統從一個對圍棋一無所知的神經網絡開始,將該神經網絡和一個強力搜索算法結合,自我對弈。在對弈過程中,神經網絡不斷調整、升級,預測每一步落子和最終的勝利者。

與AlphaGo Zero一樣,從隨機小游戲開始,AlphaZero依靠深度神經網絡、通用強化學習算法和蒙特卡洛樹搜索,在除了游戲規則外沒有任何知識背景的情況下,通過自我對弈進行強化學習。強化學習的方式是一種通過“試錯”的機器學習方式。

DeepMind在其博客中介紹,一開始AlphaZero完全是在瞎玩,但隨著時間的推移,系統從勝、負和平局中學習,調整神經網絡的參數,如此往復循環,每過一輪,系統的表現就提高了一點點,自我對弈的質量也提高了一點點,神經網絡也就越來越準確。神經網絡所需的訓練量取決于游戲的風格和復雜程度。經過試驗,AlphaZero花了9個小時掌握國際象棋,花了12個小時掌握日本將棋,花了13天掌握圍棋。

AlphaZero的訓練步驟

AlphaZero繼承了AlphaGo Zero的算法設置和網絡架構等,但兩者也有諸多不同之處。比如圍棋中很少會出現平局的情況,因此AlphaGo Zero是在假設結果為“非贏即輸”的情況下,對獲勝概率進行估計和優化。而AlphaZero會將平局或其他潛在結果也納入考慮,對結果進行估計和優化。

其次圍棋棋盤發生旋轉和反轉,結果都不會發生變化,因此AlphaGo Zero會通過生成8個對稱圖像來增強訓練數據。但國際象棋和日本將棋中,棋盤是不對稱的。因此,AlphaZero不會增強訓練數據,也不會在蒙特卡洛樹搜索期間轉換棋盤位置。

在AlphaGo Zero中,自我對弈是由以前所有迭代中最好的玩家生成的,而自我對弈也是與這個產生的新玩家對于。而AlphaZero只繼承了AlphaGo Zero的單一神經網絡,這個神經網絡不斷更新,而不是等待迭代完成。自我對弈是通過使用這個神經網絡的最新參數生成的,因此省略了評估步驟和選擇最佳玩家的過程。

此外,AlphaGo Zero使用的是通過貝葉斯優化調整搜索的超參數;AlphaZero中,所有對弈都重復使用相同的超參數,因此無需進行針對特定某種游戲的調整。唯一的例外是為保證探索噪聲和學習率。

研究團隊展示了在AlphaZero執白、Stockfish執黑的一局國際象棋里,經過1000次、10000次……直到100萬次模擬之后,AlphaZero蒙特卡洛樹的內部搜索狀態。每個樹狀圖解都展示了10個最常搜索的狀態。

通過自我學習掌握國際象棋、日本將棋和圍棋的強化學習算法 《科學》雜志 圖

DeepMind研究團隊介紹,每個AI的硬件都是定制的。例如,在TCES世界錦標賽上,Stockfish和Elmo使用的是44核CPU。而AlphaZero和AlphaGo Zero則使用了一臺配備了4個第一代TPU和44核CPU的機器。雖然架構沒有可比性,但第一代TPU的處理速度與英偉達公司Titan V型商用GPU相當。研究團隊在訓練環節里,投入了5000個一代TPU來生成自我對弈游戲,16個二代TPU來訓練神經網絡。

卡斯帕羅夫:聰明地工作比拼命地工作更重要

國際象棋是計算機科學家很早就開始研究的領域。1997年,深藍(Deep Blue)擊敗了人類國際象棋冠軍卡斯帕羅夫,這一事件成為了人工智能發展的里程碑。但彼時卡斯帕羅夫對深藍的印象并不深刻,認為深藍的智能水平和一個鬧鐘差不多。如今,他對棋類AI的看法也發生了轉變。他認為AlphaZero“像自己一樣”,下棋風格多變而開放。

在同一期《科學》雜志上,卡斯帕羅夫撰文稱,“傳統的機器是通過不斷枚舉來下棋,最終把棋局拖入無聊的平局。但在我的觀察中,AlphaZero會優先考慮棋子的活動而非盤面上的點數優勢,并且喜歡在相對風險更大的地方落子。”

盡管與傳統的冠軍級程序相比,研究人員用訓練好的神經網絡指導蒙特卡羅樹搜索,來選擇最有可能獲得勝利的一步,因此AlphaZero每秒計算的位置要少得多。據DeepMind介紹,在國際象棋中,AlphaZero每秒僅計算6萬個位置,相比之下,Stockfish則會計算6千萬個位置。但從比賽的結果來看,AlphaZero的思考顯然更有效率。

在國際象棋比賽中,AlphaZero擊敗了2016年TCEC(第九季)世界冠軍Stockfish,在1000場比賽中,贏得155場比賽,輸了6場(其余為平局)。為了驗證AlphaZero的穩健性,研究團隊還進行了一系列比賽,這些比賽都是從“人類開局方式”開始的,而AlphaZero都擊敗了Stockfish。

在將棋比賽中,AlphaZero擊敗了2017年CSA世界冠軍版Elmo,贏得了91.2%的比賽。

在圍棋比賽中,AlphaZero擊敗了AlphaGo Zero,贏得了61%的比賽。

對于AlphaZero取得的戰績,卡斯帕羅夫認為這正是印證了一句老話——聰明地工作比拼命地工作更重要。

在AlphaZero對陣各領域最強AI的戰績,綠色代表AlphaZero獲勝,灰色代表平局,粉色代表輸棋。 《科學》雜志圖

此外,卡斯帕羅夫表示,一個程序的特點通常反映了程序員思考的優先級和思維上的偏見,但由于AlphaZero是通過跟自己下棋來完善自己的思路的,所以它的風格反映的就是它自己。

在進行馬拉松式比賽的過程中,DeepMind研究團隊發現,AlphaZero自己發現并掌握了一些人類下棋時摸索出來的套路,比如在國際象棋中,AlphaZero掌握了幾種常見的開局模式、保王(King Safety)的思維以及各種兵陣的布局。但另一方面AlphaZero是自學成才的,不受到傳統觀念的影響,因此它還能為傳統策略的發展注入新鮮的血液。這一點得到了日本將棋史上第一個達成七冠王的羽生善治的贊同。

“AlphaZero會將王移到棋盤中央,從人類的角度來看,這是有違將棋理論的,它的一些路數走得也很危險。但令人難以置信的是,它始終控制著局面。AlphaZero獨特的風格打開了日本將棋新世界的大門。” 羽生善治表示。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4779

    瀏覽量

    101174
  • 算法
    +關注

    關注

    23

    文章

    4630

    瀏覽量

    93358
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11301

原文標題:AlphaZero登上《科學》封面:一個算法通吃三大棋類

文章出處:【微信號:FPGAer_Club,微信公眾號:FPGAer俱樂部】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    由入門到精通吃透PID

    由入門到精通吃透PID
    發表于 08-18 10:47

    從入門到精通吃透PID

    從入門到精通吃透PID
    發表于 09-19 09:01

    從入門到精通吃透PID

    從入門到精通吃透PID
    發表于 09-25 10:57

    從入門到精通吃透PID

    從入門到精通吃透PID
    發表于 10-31 12:28

    由入門到精通吃透PID

    由入門到精通吃透PID
    發表于 02-06 17:10

    由入門到精通吃透PID

    由入門到精通吃透PID
    發表于 04-02 11:37

    由入門到精通吃透PID

    由入門到精通吃透PID
    發表于 05-09 09:17

    基于由入門到精通吃透PID

    基于由入門到精通吃透PID
    發表于 10-15 10:34 ?9次下載
    基于由入門到精<b class='flag-5'>通吃</b>透PID

    如何成為軟硬件通吃的技術大牛?

    有沒有軟硬件通吃的大牛,絕對有。這樣的大牛多是懂點軟件,也懂點硬件,在軟件工程師面前和人聊硬件,在硬件工
    的頭像 發表于 03-20 16:49 ?6198次閱讀

    史上最強棋類AI降臨!也是迄今最強的棋類AI——AlphaZero

    “盡管MCTS已經成為圍棋程序中的標準搜索方法,但迄今為止,幾乎沒有證據表明它在國際象棋或將棋中有用。”Campbell寫道:“DeepMind展示了深度強化學習與MCTS算法相結合的力量,從隨機初始化的參數開始,讓神經網絡通過自我對弈不斷更新參數。”
    的頭像 發表于 12-08 09:24 ?1.7w次閱讀

    AlphaZero舉登上《科學》雜志封面

    它的些移動方法,比如將 King 移到棋盤的中心,就違背了日本將棋棋法。從人類的角度來看,AlphaZero 的這種做法似乎已將其置于危險的境地,但令人難以置信的是,它仍然掌控住了棋局。它獨特的下棋風格,讓我們看到了棋法新的可能性。
    的頭像 發表于 12-10 14:48 ?2573次閱讀

    谷歌DeepMind圍棋吊打世界冠軍

    AlphaZero款能夠從頭學習圍棋、象棋等棋子游戲的新型人工智能平臺。在棋類比賽中,AlphaZero
    的頭像 發表于 12-10 16:00 ?2932次閱讀
    谷歌DeepMind圍棋吊打世界冠軍

    解讀AlphaZero種人類從未見過的智慧

    在圍棋上打敗天下無敵手之后,DeepMind旗下的Alpha家族開始深入探究所有棋類,其中就包括國際象棋、日本將軍棋。 2018年12月初,在AlphaZero誕生周年之際,《自然》雜志以封面文
    發表于 12-29 13:49 ?3206次閱讀

    通過計算機算法AlphaZero來學習控制量子系統

    當計算機算法AlphaZero僅靠四小時就學會了擊敗基于人類專業知識的最佳國際象棋程序時,國際象棋界感到驚訝。
    的頭像 發表于 04-28 15:51 ?2019次閱讀

    干貨 | 超實用總結,通吃所有整流濾波電路

    干貨 | 超實用總結,通吃所有整流濾波電路
    的頭像 發表于 03-23 21:19 ?1318次閱讀
    干貨 | 超實用總結,<b class='flag-5'>一</b>文<b class='flag-5'>通吃</b>所有整流濾波電路
    新全讯网3344555| 帝豪百家乐官网利来| 打百家乐官网纯打庄的方法| 百盛百家乐软件| E世博网址| 百家乐官网群html| 百家乐网投注| 真人赌钱| 巴比伦百家乐官网的玩法技巧和规则| 百家乐孖宝揽| 百家乐官网庄家的胜率| 百家乐投注哪个信誉好| 利博国际娱乐| 虎和鼠做生意和财吗| 大发888送58体验金| 金百家乐官网的玩法技巧和规则| 太阳城紫玉园| 百家乐官网玩法最多的娱乐城 | 华克山庄娱乐| 百家乐赢钱公式| 百家乐是多少个庄闲| 吐鲁番市| 百家乐视频对对碰| 博E百百家乐官网现金网| 澳门百家乐国际娱乐城| 连环百家乐| 带有百家乐的棋牌游戏有哪些| 百家乐官网乐城皇冠| 澳门百家乐新濠天地| 百家乐官网波音平台路单| 现场百家乐能赢吗| 百家乐官网注册优惠平台| 百家乐怎么玩请指教| 最好的百家乐官网好评平台都有哪些 | 大发888 的用户名| 百家乐官网俄罗斯轮盘转盘套装| 太阳城网络博彩| 澳门百家乐指数| 莲花县| 专业百家乐软件| 澳门百家乐官网现场真人版|