那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI發(fā)布Neural MMO—一個強(qiáng)化學(xué)習(xí)的大型多智能體游戲環(huán)境

電子工程師 ? 來源:lp ? 2019-03-06 15:30 ? 次閱讀

今日凌晨,OpenAI發(fā)布Neural MMO—一個強(qiáng)化學(xué)習(xí)的大型多智能體游戲環(huán)境。這一平臺可以在持久性和開放式任務(wù)中支持大量可變數(shù)量的智能體。

一直以來,人工智能研究者都希望讓智能體(agent)學(xué)會合作競爭,一些研究者也認(rèn)為這是實(shí)現(xiàn)通用人工智能(AGI)的必要條件。

17年7月份,OpenAI、麥吉爾大學(xué)和 UC Berkeley 聯(lián)合提出了一種“用于合作-競爭混合環(huán)境的多智能體 actor-critic”,可用于多智能體環(huán)境中的中心化學(xué)習(xí)(centralized learning)和去中心化執(zhí)行(decentralized execution),讓智能體可以學(xué)會彼此合作和競爭。

論文地址:

https://arxiv.org/pdf/1706.02275.pdf

之后,OpenAI也一直沒有放棄對多智能體學(xué)習(xí)環(huán)境的探索。

今日凌晨,OpenAI宣稱發(fā)布Neural MMO——一個強(qiáng)化學(xué)習(xí)的大型多智能體游戲環(huán)境。這一多智能體的環(huán)境可以探索更兼容和高效的整體環(huán)境,力求在復(fù)雜度和智能體人數(shù)上獲取難得的平衡。

近年來,多重代理設(shè)置已成為深度強(qiáng)化學(xué)習(xí)研究的一個有效平臺。盡管進(jìn)展頗豐,但其仍存在兩個主要挑戰(zhàn):當(dāng)前環(huán)境要么復(fù)雜但過于受限,要么開放但過于簡單。

其中,持久性和規(guī)模化將是探討的關(guān)鍵屬性,但研究者們還需要更好的基準(zhǔn)測試環(huán)境,在存在大量人口規(guī)模和持久性的情況下量化學(xué)習(xí)進(jìn)度。這一游戲類型(MMO:大型多人在線游戲)模擬了在持續(xù)和廣泛環(huán)境中可變數(shù)量玩家進(jìn)行競爭的大型生態(tài)系統(tǒng)。

為了應(yīng)對這些挑戰(zhàn),OpenAI構(gòu)建了神經(jīng)MMO以滿足以下標(biāo)準(zhǔn):

持久性:在沒有環(huán)境重置的情況下,代理可以在其他學(xué)習(xí)代理存在的情況下同時學(xué)習(xí)。策略必須具有遠(yuǎn)見思維,并適應(yīng)其他代理行為的潛在快速變化。

比例:環(huán)境支持大量且可變數(shù)量的實(shí)體。實(shí)驗(yàn)考慮了100個并發(fā)服務(wù)器中每個服務(wù)器128個并發(fā)代理且長達(dá)100M的生命周期。

效率:進(jìn)入的計算障礙很低。可以在單個桌面CPU上培訓(xùn)有效的策略。

擴(kuò)展:與現(xiàn)有MMO類似,Neural MMO旨在更新內(nèi)容。目前的核心功能包括基于拼接單元塊(tile-based)的地形的程序生成,食物和水覓食系統(tǒng)以及戰(zhàn)略戰(zhàn)斗系統(tǒng)。未來有機(jī)會進(jìn)行開源驅(qū)動的擴(kuò)展。

OpenAI在博客中詳細(xì)介紹了這一新環(huán)境。

環(huán)境

玩家(代理)可以加入任何可用的服務(wù)器(環(huán)境),每個都會包含一個可配置大小、且自動生成的基于圖塊的游戲地圖。一些障礙塊,例如森林和草,是可穿越的;其他的如水和實(shí)心巖石,則不能穿越。

代理在環(huán)境邊緣的隨機(jī)位置產(chǎn)生。他們需要獲得食物和水,并避免其他代理的戰(zhàn)斗傷害,以維持自己的生存。踩在森林地塊上或出現(xiàn)在水資源地塊的旁邊會分別填充一部分代理的食物和水供應(yīng)。然而,森林的食物供應(yīng)有限,隨著時間的推移會緩慢再生。這意味著代理必須競爭食品塊,同時定期補(bǔ)充水源。玩家還可以使用三種戰(zhàn)斗風(fēng)格參與戰(zhàn)斗,分別為混戰(zhàn),游獵及魔法。

輸入:代理觀察以其當(dāng)前位置為中心的方形區(qū)域。這包括地塊類型和占用代理的選擇屬性(健康,食物,水和位置)。

輸出:代理為下一個游戲單位時間(timestep)輸出操作選項(xiàng)。該操作由一個動作和一個攻擊組成。

模型

作為一個簡單的基準(zhǔn),我們使用vanilla策略梯度訓(xùn)練一個小型,完全連接的架構(gòu),并把值函數(shù)基準(zhǔn)和獎勵折扣作為唯一的增強(qiáng)功能。在這個模型中,獎勵策略并不針對實(shí)現(xiàn)特定目標(biāo),而是針對其生命周期(軌跡長度)進(jìn)行優(yōu)化:他們在其生命周期的每個單位時間上獲得獎勵1。我們通過計算所有代理的最大值來將可變長度觀測值(例如周圍代理列表)轉(zhuǎn)換為單個長度向量(OpenAI Five也使用了這個技巧)。基于PyTorch和Ray,源版本包括我們完整分布式培訓(xùn)的實(shí)現(xiàn)。

訓(xùn)練中最大種群數(shù)量在(16,32,64,128)之間變化。為了提高效率,在測試時,將在一對實(shí)驗(yàn)中學(xué)到的特定群進(jìn)行合并,并在一個固定的范圍內(nèi)進(jìn)行評估。只對作戰(zhàn)策略進(jìn)行評估,因?yàn)橹苯恿炕鲬?zhàn)策略比較困難。通常來說,在更大的分布范圍內(nèi)進(jìn)行訓(xùn)練效果會更好。

代理的策略是從多個種群中簡單抽樣——不同種群中的代理共享體系結(jié)構(gòu),但只有相同種群中的代理共享權(quán)重。初步實(shí)驗(yàn)表明,隨著多智能體相互作用的增加,智能體的能力也隨之增加。增加并發(fā)智能體的最大數(shù)量將放大探索行為;增加種群的數(shù)量將放大生態(tài)位形成——也就是說,種群在地圖的不同部分?jǐn)U散和覓食的趨勢。

在評估跨多臺服務(wù)器的玩家能力方面,并沒有統(tǒng)一的標(biāo)準(zhǔn)。然而,有時,MMO服務(wù)器會進(jìn)行合并。我們通過合并在不同服務(wù)器中訓(xùn)練的玩家基地來實(shí)現(xiàn)“錦標(biāo)賽”風(fēng)格的評估。這使得我們可以直接比較在不同實(shí)驗(yàn)環(huán)境中學(xué)到的策略。改變了測試時間范圍,發(fā)現(xiàn)在較大環(huán)境下訓(xùn)練的代理一直優(yōu)于在較小環(huán)境中訓(xùn)練的代理。

評估結(jié)果

訓(xùn)練中最大種群數(shù)量在(16,32,64,128)之間變化。為了提高效率,在測試時,將在一對實(shí)驗(yàn)中學(xué)到的特定群進(jìn)行合并,并在一個固定的范圍內(nèi)進(jìn)行評估。只對作戰(zhàn)策略進(jìn)行評估,因?yàn)橹苯恿炕鲬?zhàn)策略比較困難。通常來說,在更大的分布范圍內(nèi)進(jìn)行訓(xùn)練效果會更好。

代理的策略是從多個種群中簡單抽樣——不同種群中的代理共享體系結(jié)構(gòu),但只有相同種群中的代理共享權(quán)重。初步實(shí)驗(yàn)表明,隨著多智能體相互作用的增加,智能體的能力也隨之增加。增加并發(fā)智能體的最大數(shù)量將放大探索行為;增加種群的數(shù)量將放大生態(tài)位形成——也就是說,種群在地圖的不同部分?jǐn)U散和覓食的趨勢。

服務(wù)器合并條件下的錦標(biāo)賽:多代理放大了競爭行為

在跨多臺服務(wù)器隊(duì)玩家能力的能力進(jìn)行評估時,我們并沒有統(tǒng)一的標(biāo)準(zhǔn)。然而,有時MMO服務(wù)器會進(jìn)行合并。我們通過合并在不同服務(wù)器中訓(xùn)練的玩家基地來實(shí)現(xiàn)“錦標(biāo)賽”風(fēng)格的評估。這使得我們可以直接比較在不同實(shí)驗(yàn)環(huán)境中學(xué)到的策略。改變了測試時間范圍后,我們發(fā)現(xiàn),在較大環(huán)境下訓(xùn)練的代理一直優(yōu)于在較小環(huán)境中訓(xùn)練的代理。

種群規(guī)模的增加放大了探索行為

種群規(guī)模放大了探索行為:代理表現(xiàn)出分散開來的特征以避免競爭。最后幾幀顯示學(xué)習(xí)值函數(shù)疊加。有關(guān)其他參數(shù),請參閱論文:

https://s3-us-west-2.amazonaws.com/openai-assets/neural-mmo/neural-mmo-arxiv.pdf

在自然世界中,動物之間的競爭可以激勵它們分散開來以避免沖突。我們觀察到,隨著并發(fā)代理數(shù)量的增加,映射覆蓋率增加。代理學(xué)習(xí)探索僅僅是因?yàn)槠渌淼拇嬖谔峁┝诉@樣做的自然動機(jī)。物種數(shù)量的增加擴(kuò)大了生態(tài)位形成的幾率。

物種數(shù)量的增加擴(kuò)大了生態(tài)位的形成。

物種數(shù)量(種群數(shù)量)放大了生態(tài)位的形成。上圖中訪問地圖覆蓋了游戲地圖;不同的顏色對應(yīng)不同的物種。訓(xùn)練單一物種傾向于產(chǎn)生單一的深度探索路徑。訓(xùn)練八個物種則會導(dǎo)致許多較淺的探索路徑:種群擴(kuò)散以避免物種之間的競爭。

鑒于環(huán)境足夠大且資源豐富,我們發(fā)現(xiàn)不同的代理群在地圖上呈現(xiàn)分散的特點(diǎn),以避免隨著數(shù)量的增加與其他代理產(chǎn)生競爭。由于代理不能與自己種群中的其他代理競爭(即與他們共享權(quán)重的代理),他們傾向于尋找包含足夠資源來維持其種群數(shù)量的地圖區(qū)域。在DeepMind的并發(fā)多代理研究中也獨(dú)立地觀察到類似的效果。

并發(fā)多代理研究:

https://arxiv.org/abs/1812.07019

其他見解

每個方形圖顯示位于中心的代理對其周圍代理的存在的響應(yīng)。我們在初始化和訓(xùn)練早期展示覓食地圖;額外的依賴圖對應(yīng)于覓食和戰(zhàn)斗的不同表述。

我們通過將代理固定在假設(shè)的地圖中心來對代理進(jìn)行可視化。對于該代理可見的每個位置,我們將顯示在該位置有第二個代理時的值函數(shù)。

我們發(fā)現(xiàn)代理商在覓食和戰(zhàn)斗環(huán)境中,可以學(xué)習(xí)依賴于其他代理的策略。代理學(xué)習(xí)“插眼(bull’s eye)”行為時,在幾分鐘的訓(xùn)練后就能更有效地開始覓食。當(dāng)代理學(xué)習(xí)環(huán)境的戰(zhàn)斗力學(xué)時,他們開始適當(dāng)?shù)卦u估有效的接觸范圍和接近角度。

下一步

Neural MMO解決了之前基于游戲環(huán)境的兩個主要限制,但仍有許多尚未解決。這種Neural MMO在環(huán)境復(fù)雜性和人口規(guī)模之間盡力尋求平衡。OpenAI在設(shè)計這個環(huán)境時考慮了開源擴(kuò)展,并為研究社區(qū)提供了基礎(chǔ)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47683

    瀏覽量

    240301
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    166

    瀏覽量

    10615
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    268

    瀏覽量

    11302

原文標(biāo)題:OpenAI發(fā)布Neural MMO :大型多智能體游戲環(huán)境

文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    OpenAI提交新商標(biāo)的申請

    的新模型研發(fā)、拓展新的應(yīng)用場景有關(guān)。 回顧 OpenAI 的發(fā)展歷程,從最初發(fā)布 OpenAI gym,到后來推出 ChatGPT,再到不斷迭代 GPT 系列模型,OpenAI 始終
    的頭像 發(fā)表于 02-05 16:38 ?302次閱讀

    OpenAI發(fā)布深度研究智能功能

    OpenAI的o3模型提供支持,通過端到端的強(qiáng)化學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)了高效、準(zhǔn)確的研究能力。它能夠在5-30分鐘內(nèi)完成份專業(yè)報告,大大縮短了研究時間,提高了研究效率。 該功能由四模塊協(xié)同
    的頭像 發(fā)表于 02-05 15:05 ?150次閱讀

    OpenAI發(fā)布智能GPT模型及AI智能工具

    OpenAI近日透露了其未來發(fā)展的重要動向。據(jù)OpenAI首席產(chǎn)品官凱文·維爾(Kevin Weil)介紹,公司計劃推出更智能的GPT o3模型,并首次亮相AI智能
    的頭像 發(fā)表于 01-24 13:54 ?250次閱讀

    OpenAI目標(biāo)轉(zhuǎn)向“超級智能

    (superintelligence)”。 Altman在博客中強(qiáng)調(diào),OpenAI對于當(dāng)前的產(chǎn)品充滿熱愛,但公司的使命遠(yuǎn)不止于此。他們在這里,是為了追求更加輝煌的未來,
    的頭像 發(fā)表于 01-07 10:57 ?263次閱讀

    OpenAI 發(fā)了支持 ESP32 的 Realtime API SDK

    “ ?昨晚 OpenAI 正式發(fā)布了 o3 模型,AI 圈片沸騰。作為電子工程師的我撓了撓頭,好像和我沒什么直接的關(guān)系??倒是 OpenAI 的另
    的頭像 發(fā)表于 12-21 11:36 ?4157次閱讀
    <b class='flag-5'>OpenAI</b> 發(fā)了<b class='flag-5'>一</b><b class='flag-5'>個</b>支持 ESP32 的 Realtime API SDK

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+初品的體驗(yàn)

    解決許多技術(shù)的和非技術(shù)的挑戰(zhàn),如提高智能的自主性、處理復(fù)雜環(huán)境互動的能力及確保行為的倫理和安全性。 未來的研究需要將視覺、語音和其他傳感技術(shù)與機(jī)器人技術(shù)相結(jié)合,以探索更加先進(jìn)的知識表示和記憶模塊,利用
    發(fā)表于 12-20 19:17

    《具身智能機(jī)器人系統(tǒng)》第1-6章閱讀心得之具身智能機(jī)器人系統(tǒng)背景知識與基礎(chǔ)模塊

    環(huán)境持續(xù)互動來優(yōu)化決策策略。書中還進(jìn)步討論了強(qiáng)化學(xué)習(xí)的基本原理,包括狀態(tài)空間、動作空間、獎勵函數(shù)的設(shè)計,以及策略網(wǎng)絡(luò)的訓(xùn)練方法。 具身智能機(jī)器人系統(tǒng)是
    發(fā)表于 12-19 22:26

    MMO陽極和柔性陽極的區(qū)別

    MMO陽極(金屬氧化物涂層陽極)和柔性陽極它們在設(shè)計、應(yīng)用和性能方面存在顯著差異。
    的頭像 發(fā)表于 12-01 16:57 ?203次閱讀
    <b class='flag-5'>MMO</b>陽極和柔性陽極的區(qū)別

    螞蟻集團(tuán)收購邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

    領(lǐng)域的研究與發(fā)展。令人矚目的是,邊塞科技的創(chuàng)始人吳翼已正式加入該實(shí)驗(yàn)室,并擔(dān)任首席科學(xué)家職。 吳翼在其個人社交平臺上對這變動進(jìn)行了回應(yīng)。他表示,自己最近接受了螞蟻集團(tuán)的邀請,負(fù)責(zé)大模型強(qiáng)化學(xué)習(xí)領(lǐng)域的研究工
    的頭像 發(fā)表于 11-22 11:14 ?709次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    的計算圖和自動微分功能,非常適合實(shí)現(xiàn)復(fù)雜的強(qiáng)化學(xué)習(xí)算法。 1. 環(huán)境(Environment) 在強(qiáng)化學(xué)習(xí)中,環(huán)境
    的頭像 發(fā)表于 11-05 17:34 ?398次閱讀

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計領(lǐng)域取得了重要突破,詳細(xì)介紹了其用于芯片設(shè)計布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計流程,并幫助芯片在性能、功耗和面積方面實(shí)現(xiàn)更優(yōu)表現(xiàn)。
    的頭像 發(fā)表于 09-30 16:16 ?471次閱讀

    通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中,我們將介紹并實(shí)現(xiàn)種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí),尤其是馬爾可夫決策
    的頭像 發(fā)表于 06-05 08:27 ?414次閱讀
    通過<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行特征選擇

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    當(dāng)?shù)貢r間5月13日OpenAI推出ChatGPT-4o,代表了人工智能向前邁出的大步。在GPT-4turbo的強(qiáng)大基礎(chǔ)上,這種迭代擁有顯著的改進(jìn)。在發(fā)布會的演示中,
    發(fā)表于 05-27 15:43

    Sora與世界模型:為何它未能成為全面代表?

    當(dāng)AI領(lǐng)域中講到 世界/world、環(huán)境/environment 這個詞的時候,通常是為了與 智能/agent 加以區(qū)分。研究智能最多的
    的頭像 發(fā)表于 02-29 12:37 ?1055次閱讀
    Sora與世界模型:為何它未能成為全面代表?
    可以玩百家乐官网的博彩公司| 百家乐皇室百家乐的玩法技巧和规则 | 澳门百家乐是怎样赌| 赌博百家乐官网经验| 元游棋牌游戏大厅下载| 百家乐公式软件| 同花顺百家乐官网娱乐城| 百家乐官网太阳城小郭| 六合彩报| 新葡京百家乐的玩法技巧和规则 | 百家乐官网破解软件真的有用吗| 真人棋牌游戏| 百家乐技巧公司| 大连百家乐官网食品| 百家乐官网游戏机图片| 六合彩聊天室| 澳门太阳城娱乐城| 永利百家乐赌场娱乐网规则| 新东方百家乐官网的玩法技巧和规则 | 威尼斯人娱乐官方网| 波音百家乐现金网投注平台排名导航| 华泰百家乐官网的玩法技巧和规则 | 棋牌游戏评测网| 街机水果机游戏下载| 百家乐推饼| 百家乐体育直播| 坟地风水24穴| 仕達屋百家乐官网的玩法技巧和规则 | 大发888资讯网| 成都百家乐牌具| 至尊百家乐20| 关于百家乐官网概率的书| 高要市| 大发888娱乐城客户端| 大发888 加速器| 星空棋牌舟山清墩| 大发888游戏平台hana| 威尼斯人娱乐城信誉lm0| 威尼斯人娱乐网网上百家乐的玩法技巧和规则 | 百家乐真人游戏投注网| 百家乐赌场现金网平台排名|