作者:文永明,李博研,張寧寧,李小建,熊楚依,劉潔璽
采用深度強(qiáng)化學(xué)習(xí)算法解決了多智能體編隊協(xié)同控制問題。基于多智能體深度確定性策略梯度算法(MADDPG)構(gòu)建分布式編隊控制架構(gòu),并結(jié)合集中式訓(xùn)練-分布式執(zhí)行框架進(jìn)行求解。針對多智能體環(huán)境不穩(wěn)定問題,依據(jù)單個智能體的局部信息構(gòu)建對應(yīng)獎勵函數(shù)。針對大規(guī)模編隊協(xié)同控制,實(shí)現(xiàn)了多個多智能體環(huán)境下的算法訓(xùn)練與評估。試驗(yàn)結(jié)果表明,應(yīng)用該算法的多智能體能夠完成協(xié)同任務(wù),且所有智能體都可得到合理的協(xié)同控制策略。
0引言
多智能體系統(tǒng)(MAS)由若干單獨(dú)控制的、通過無線網(wǎng)絡(luò)連接的智能體構(gòu)成,在諸如控制、編隊、分配、博弈和分布式估計等問題中廣泛研究并取得了一定進(jìn)展。在已知系統(tǒng)動力學(xué)模型基礎(chǔ)上,研究者們對多智能體系統(tǒng)基礎(chǔ)理論開展了大量研究。傳統(tǒng)的系統(tǒng)識別試驗(yàn)依據(jù)輸入-輸出數(shù)據(jù)確定分析模型,但在實(shí)際應(yīng)用中,復(fù)雜過程建模困難且昂貴。此外,傳統(tǒng)的控制方法在與復(fù)雜環(huán)境交互時存在局限性,固定策略不能應(yīng)用于不同環(huán)境或任務(wù)場景中。深度強(qiáng)化學(xué)習(xí)關(guān)注一個智能體的策略模型,借鑒了不完全可知馬爾可夫決策中的最優(yōu)控制思想,智能體通過與環(huán)境交互來最大化長期累積獎勵,控制優(yōu)化與策略學(xué)習(xí)之間存在著緊密聯(lián)系。因此,深度強(qiáng)化學(xué)習(xí)技術(shù)在系統(tǒng)控制方面存在廣闊的應(yīng)用前景。 深度強(qiáng)化學(xué)習(xí)算法分為基于值的強(qiáng)化學(xué)習(xí)算法和基于策略的強(qiáng)化學(xué)習(xí)算法2類。
1) Q學(xué)習(xí)及深度Q學(xué)習(xí)算法是最常用且直接的基于值的算法,它通過動作值函數(shù)來獲得最優(yōu)策略。通過每個智能體學(xué)習(xí)一個獨(dú)立的最優(yōu)方程,將基于值的算法直接應(yīng)用于多智能體系統(tǒng)。然而,在學(xué)習(xí)過程中鄰居智能體更新時,當(dāng)前智能體的獎勵和狀態(tài)轉(zhuǎn)移等信息也會發(fā)生改變。在這種情況下,環(huán)境就會出現(xiàn)不穩(wěn)定性問題,并且也不再滿足馬爾可夫性,最終導(dǎo)致基于值的算法的收斂性得不到保證。
2) 基于策略的算法是另一類深度強(qiáng)化學(xué)習(xí)算法,該類算法通過獨(dú)立的神經(jīng)網(wǎng)絡(luò)來近似隨機(jī)策略。執(zhí)行者-評估者 (Actor-Critic, AC) 算法結(jié)合了基于值和基于策略的算法,其中執(zhí)行者代表生成動作的策略函數(shù),評估者代表評價動作獎勵的值逼近器。深度確定性策略梯度算法(DDPG)是一種無模型的AC算法,它結(jié)合了確定性策略梯度和深度Q學(xué)習(xí)算法,其中執(zhí)行者和評估者均用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行逼近。多智能體深度確定性策略梯度方法(MADDPG)將DDPG擴(kuò)展到一個多智能體協(xié)同完成的任務(wù)環(huán)境,在這個環(huán)境中智能體智能獲得局部信息。MADDPG是一個針對多智能體場景重新設(shè)計的AC模型,旨在解決不斷變化的環(huán)境和多智能體間的復(fù)雜問題。
1理論基礎(chǔ)
1.1 代數(shù)圖論
1.2 問題描述
2基于MADDPG迭代的編隊協(xié)同控制框架
2.1 傳統(tǒng)控制設(shè)計
2.2 編隊協(xié)同控制算法框架設(shè)計
圖1 編隊控制算法框架
2.3 學(xué)習(xí)目標(biāo)設(shè)計
2.4 編隊協(xié)同控制算法流程
3試驗(yàn)結(jié)果與分析
3.1 試驗(yàn)設(shè)置
圖2 試驗(yàn)交互拓?fù)鋱D
3.2 結(jié)果與分析
本文在3.1節(jié)展示的環(huán)境中運(yùn)行并評估本文算法,仿真結(jié)果如圖3所示,圖4給出了智能體訓(xùn)練前后運(yùn)動軌跡對比。 4個智能體的長期累計獎勵得分如圖3(a)所示。在學(xué)習(xí)過程中得分是逐漸增加的,并且在50?000次迭代后收斂到6以內(nèi),這意味著MAS在50?000次迭代后可以有效消除初始誤差;同時,這個得分也意味著MAS實(shí)現(xiàn)理想編隊和到達(dá)目標(biāo)位置所需的代價。圖3(b)是智能體最后50次訓(xùn)練收斂時的穩(wěn)定獎勵。由圖可見,4個智能體可以快速實(shí)現(xiàn)穩(wěn)定編隊,且跟蹤誤差同樣意味著獎懲可以在1?s內(nèi)收斂至接近于0。 4個智能體在訓(xùn)練前后的初始、1?s、2?s、3?s和4?s編隊狀態(tài)如圖4所示。圖中藍(lán)色點(diǎn)為領(lǐng)航者,對應(yīng)圖2中0號藍(lán)色點(diǎn),粉色、灰色和綠色點(diǎn)分別對應(yīng)圖2中1號粉色點(diǎn)、2號紫色點(diǎn)和3號橙色點(diǎn)。試驗(yàn)結(jié)果表明,由于缺乏環(huán)境的先驗(yàn)知識,MAS在首次嘗試時會偏離隊形。當(dāng)智能體通過在環(huán)境中反復(fù)試錯積累經(jīng)驗(yàn),MAS會收斂形成一個穩(wěn)定的編隊。最終,領(lǐng)航者可以到達(dá)目標(biāo)位置且追隨者可以與領(lǐng)航者保持編隊位置穩(wěn)定。
圖 3 試驗(yàn)環(huán)境下仿真結(jié)果
圖 4 智能體訓(xùn)練前后狀態(tài)對比
4結(jié)束語
本文采用多智能體策略梯度算法,結(jié)合集中訓(xùn)練和分布執(zhí)行的框架,研究并求解多智能體協(xié)同編隊控制問題,設(shè)計構(gòu)建了一種基于多智能體深度確定性策略梯度算法的分布式編隊控制框架,并給出了算法的訓(xùn)練流程。通過對多智能體合作環(huán)境的仿真訓(xùn)練與評估,驗(yàn)證了本文算法的有效性。試驗(yàn)結(jié)果表明,本文算法能夠使智能體在動力學(xué)模型先驗(yàn)知識未知的情況下協(xié)同完成任務(wù),有助于解決數(shù)學(xué)模型過于復(fù)雜而難以識別的控制問題。
審核編輯:黃飛
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4780瀏覽量
101174 -
算法
+關(guān)注
關(guān)注
23文章
4630瀏覽量
93358 -
無線網(wǎng)絡(luò)
+關(guān)注
關(guān)注
6文章
1443瀏覽量
66091 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5515瀏覽量
121553
原文標(biāo)題:基于深度強(qiáng)化學(xué)習(xí)的多智能體編隊協(xié)同控制
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
請問迭代器的實(shí)現(xiàn)原理是什么?
【飛控開發(fā)高級篇7】瘋殼·開源編隊無人機(jī)-編隊飛行
【飛控開發(fā)高級教程7】瘋殼·開源編隊無人機(jī)-編隊飛行
【瘋殼·無人機(jī)教程29】開源編隊無人機(jī)-編隊飛行
無線通信網(wǎng)絡(luò)的多智能小車編隊控制系統(tǒng)_申忠宇
基于二層鄰居信息的多智能體系統(tǒng)編隊控制
![基于二層鄰居信息的多智能體系統(tǒng)<b class='flag-5'>編隊</b><b class='flag-5'>控制</b>](https://file.elecfans.com/web2/M00/49/6C/poYBAGKhwLGAErMNAAAWR65hwN0069.jpg)
基于迭代填充的內(nèi)存計算框架分區(qū)映射算法
![基于<b class='flag-5'>迭代</b>填充的內(nèi)存計算<b class='flag-5'>框架</b>分區(qū)映射算法](https://file.elecfans.com/web2/M00/49/73/poYBAGKhwLaAUS5gAAAfO4yDBUw288.jpg)
多無人機(jī)協(xié)同編隊飛行控制的關(guān)鍵技術(shù)和發(fā)展展望
![多無人機(jī)<b class='flag-5'>協(xié)同</b><b class='flag-5'>編隊</b>飛行<b class='flag-5'>控制</b>的關(guān)鍵技術(shù)和發(fā)展展望](https://file.elecfans.com/web1/M00/C3/1C/pIYBAF8c5L2AN8TbAAFiMfD9SH8343.png)
基于虛擬結(jié)構(gòu)的機(jī)器人編隊控制方法
集群無人艇協(xié)同微波網(wǎng)絡(luò)通信技術(shù)探討
想做無人機(jī)編隊表演?需要掌握哪些?
![想做無人機(jī)<b class='flag-5'>編隊</b>表演?需要掌握哪些?](https://file.elecfans.com/web2/M00/20/B3/pYYBAGGfNNmAK-PZAAJsGM5Cgk0227.jpg)
評論