美女a毛片,国内黄色一级精品,亚洲人成在线观看一区二区,亚洲a网站,殴美一级视频,日韩一区二区免费,国产www色

?
2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術(shù)解
發(fā)布時(shí)間:2025-02-28 18:37

  圍棋被攻克之后,多人在線戰(zhàn)術(shù)競技游戲(MOBA)已經(jīng)成為測試檢驗(yàn)前沿人工智能的動(dòng)作決策和預(yù)測能力的重要平臺?;隍v訊天美工作室開發(fā)的熱門 MOBA 類手游《王者榮耀》,騰訊 AI Lab 正努力探索強(qiáng)化學(xué)習(xí)技術(shù)在復(fù)雜環(huán)境中的應(yīng)用潛力。本文即是其中的一項(xiàng)成果,研究用深度強(qiáng)化學(xué)習(xí)來為智能體預(yù)測游戲動(dòng)作的方法,論文已被AAAI-2020接收。

  此技術(shù)支持了騰訊此前推出的策略協(xié)作型 AI 「絕悟」1v1版本,該版本曾在今年8月上海舉辦的國際數(shù)碼互動(dòng)娛樂展覽會(huì)China Joy首次亮相,在2100多場和頂級業(yè)余玩家體驗(yàn)測試中勝率達(dá)到99.8%。

  除了研究,騰訊AI Lab與王者榮耀還將聯(lián)合推出“開悟”AI+游戲開放平臺,打造產(chǎn)學(xué)研生態(tài)。王者榮耀會(huì)開放游戲數(shù)據(jù)、游戲核心集群(Game Core)和工具,騰訊AI Lab會(huì)開放強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)的計(jì)算平臺和算力,邀請高校與研究機(jī)構(gòu)共同推進(jìn)相關(guān)AI研究,并通過平臺定期測評,讓“開悟”成為展示多智能體決策研究實(shí)力的平臺。目前“開悟”平臺已啟動(dòng)高校內(nèi)測,預(yù)計(jì)在2020年5月全面開放高校測試,并且在測試環(huán)境上,支持1v1,5v5等多種模式;2020年12月,我們計(jì)劃舉辦第一屆的AI在王者榮耀應(yīng)用的水平測試。

  在競爭環(huán)境中學(xué)習(xí)具備復(fù)雜動(dòng)作決策能力的智能體這一任務(wù)上,深度強(qiáng)化學(xué)習(xí)(DRL)已經(jīng)得到了廣泛的應(yīng)用。在競爭環(huán)境中,很多已有的 DRL 研究都采用了兩智能體游戲作為測試平臺,即一個(gè)智能體對抗另一個(gè)智能體(1v1)。

  其中 Atari 游戲和棋盤游戲已經(jīng)得到了廣泛的研究,比如 2015 年 Mnih et al. 使用深度 Q 網(wǎng)絡(luò)訓(xùn)練了一個(gè)在 Atari 游戲上媲美人類水平的智能體;2016 年 Silver et al. 通過將監(jiān)督學(xué)習(xí)與自博弈整合進(jìn)訓(xùn)練流程中而將智能體的圍棋棋力提升到了足以擊敗職業(yè)棋手的水平;2017 年 Silver et al. 又更進(jìn)一步將更通用的 DRL 方法應(yīng)用到了國際象棋和日本將棋上。

  本文研究的是一種復(fù)雜度更高一籌的MOBA 1v1 游戲。即時(shí)戰(zhàn)略游戲(RTS)被視為 AI 研究的一個(gè)重大挑戰(zhàn)。而MOBA 1v1 游戲就是一種需要高度復(fù)雜的動(dòng)作決策的 RTS 游戲。相比于棋盤游戲和 Atari 系列等 1v1 游戲,MOBA 的游戲環(huán)境要復(fù)雜得多,AI的動(dòng)作預(yù)測與決策難度也因此顯著提升。以 MOBA 手游《王者榮耀》中的 1v1 游戲?yàn)槔?,其狀態(tài)和所涉動(dòng)作的數(shù)量級分別可達(dá) 10^600和 10^18000,而圍棋中相應(yīng)的數(shù)字則為 10^170和 10^360,參見下表 1。

  此外,MOBA 1v1 的游戲機(jī)制也很復(fù)雜。要在游戲中獲勝,智能體必須在部分可觀察的環(huán)境中學(xué)會(huì)規(guī)劃、攻擊、防御、控制技能組合以及誘導(dǎo)和欺騙對手。除了玩家與對手的智能體,游戲中還有其它很多游戲單位,比如小兵和炮塔。這會(huì)給目標(biāo)選擇帶來困難,因?yàn)檫@需要精細(xì)的決策序列和相應(yīng)的動(dòng)作執(zhí)行。

  此外,MOBA 游戲中不同英雄的玩法也不一樣,因此就需要一個(gè)穩(wěn)健而統(tǒng)一的建模方式。還有一點(diǎn)也很重要:MOBA 1v1游戲缺乏高質(zhì)量人類游戲數(shù)據(jù)以便進(jìn)行監(jiān)督學(xué)習(xí),因?yàn)橥婕以谕?1v1 模式時(shí)通常只是為了練習(xí)英雄,而主流 MOBA 游戲的正式比賽通常都采用 5v5 模式。

  需要強(qiáng)調(diào),本論文關(guān)注的是 MOBA 1v1 游戲而非MOBA 5v5 游戲,因?yàn)楹笳吒⒅厮兄悄荏w的團(tuán)隊(duì)合作策略而不是單個(gè)智能體的動(dòng)作決策??紤]到這一點(diǎn),MOBA 1v1游戲更適合用來研究游戲中的復(fù)雜動(dòng)作決策問題。

  為了解決這些難題,本文設(shè)計(jì)了一種深度強(qiáng)化學(xué)習(xí)框架,并探索了一些算法層面的創(chuàng)新,對 MOBA 1v1 游戲這樣的多智能體競爭環(huán)境進(jìn)行了大規(guī)模的高效探索。文中設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)包含了對多模態(tài)輸入的編碼、對動(dòng)作中相關(guān)性的解耦、探索剪枝機(jī)制以及攻擊注意機(jī)制,以考慮 MOBA 1v1 游戲中游戲情況的不斷變化。

  為了全面評估訓(xùn)練得到的 AI 智能體的能力上限和策略穩(wěn)健性,新設(shè)計(jì)的方法與職業(yè)玩家、頂級業(yè)務(wù)玩家以及其它在 MOBA 1v1 游戲上的先進(jìn)方法進(jìn)行了比較。

  對需要高度復(fù)雜的動(dòng)作決策的 MOBA 1v1 游戲 AI 智能體的構(gòu)建進(jìn)行了全面而系統(tǒng)的研究。在系統(tǒng)設(shè)計(jì)方面,本文提出了一種深度強(qiáng)化學(xué)習(xí)框架,能提供可擴(kuò)展的和異步策略的訓(xùn)練。在算法設(shè)計(jì)方面,本文開發(fā)了一種用于建模 MOBA 動(dòng)作決策的 actor-critic 神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的優(yōu)化使用了一種多標(biāo)簽近端策略優(yōu)化(PPO)目標(biāo),并提出了對動(dòng)作依賴關(guān)系的解耦方法、用于目標(biāo)選取的注意機(jī)制、用于高效探索的動(dòng)作掩碼、用于學(xué)習(xí)技能組合 LSTM 以及一個(gè)用于確保訓(xùn)練收斂的改進(jìn)版 PPO——dual-clip PPO。

  在《王者榮耀》1v1 模式上的大量實(shí)驗(yàn)表明,訓(xùn)練得到的 AI 智能體能在多種不同類型的英雄上擊敗頂級職業(yè)玩家。

  考慮到復(fù)雜智能體的動(dòng)作決策問題可能引入高方差的隨機(jī)梯度,所以有必要采用較大的批大小以加快訓(xùn)練速度。因此,本文設(shè)計(jì)了一種高可擴(kuò)展低耦合的系統(tǒng)架構(gòu)來構(gòu)建數(shù)據(jù)并行化。具體來說,這個(gè)架構(gòu)包含四個(gè)模塊:強(qiáng)化學(xué)習(xí)學(xué)習(xí)器(RL Learner)、人工智能服務(wù)器(AI Server)、分發(fā)模塊(Dispatch Module)和記憶池(Memory Pool)。如圖 1 所示。

  AI 服務(wù)器實(shí)現(xiàn)的是 AI 模型與環(huán)境的交互方式。分發(fā)模塊是用于樣本收集、壓縮和傳輸?shù)墓ぷ髡?。記憶池是?shù)據(jù)存儲模塊,能為RL 學(xué)習(xí)器提供訓(xùn)練實(shí)例。這些模塊是分離的,可靈活配置,從而讓研究者可將重心放在算法設(shè)計(jì)和環(huán)境邏輯上。這樣的系統(tǒng)設(shè)計(jì)也可用于其它的多智能體競爭問題。

  RL 學(xué)習(xí)器中實(shí)現(xiàn)了一個(gè) actor-critic 神經(jīng)網(wǎng)絡(luò),其目標(biāo)是建模 MOBA 1v1 游戲中的動(dòng)作依賴關(guān)系。如圖2所示。

  5.dual-clip PPO:這是 PPO 算法的一種改進(jìn)版本,使用它是為了確保使用大和有偏差的數(shù)據(jù)批進(jìn)行訓(xùn)練時(shí)的收斂性。如圖3所示。

  測試平臺為熱門 MOBA 游戲《王者榮耀》的 1v1 游戲模式。為了評估 AI 在現(xiàn)實(shí)世界中的表現(xiàn),這個(gè) AI 模型與《王者榮耀》職業(yè)選手和頂級業(yè)余人類玩家打了大量比賽。實(shí)驗(yàn)中 AI 模型的動(dòng)作預(yù)測時(shí)間間隔為 133 ms,這大約是業(yè)余高手玩家的反應(yīng)時(shí)間。另外,論文方法還與已有研究中的基準(zhǔn)方法進(jìn)行了比較,其中包括游戲內(nèi)置的決策樹方法以及其它研究中的 MTCS 及其變體方法。實(shí)驗(yàn)還使用Elo分?jǐn)?shù)對不同版本的模型進(jìn)行了比較。

  表 3 給出了AI和多名頂級職業(yè)選手的比賽結(jié)果。需要指出這些職業(yè)玩家玩的都是他們擅長的英雄??梢钥吹?AI 能在多種不同類型的英雄上擊敗職業(yè)選手。

  實(shí)驗(yàn)進(jìn)一步評估了 AI 學(xué)習(xí)的策略能否應(yīng)對不同的頂級人類玩家。在2019年8月份,王者榮耀1v1 AI對公眾亮相,與大量頂級業(yè)余玩家進(jìn)行了2100場對戰(zhàn)。AI勝率達(dá)到99.81%。

  圖 5 展示了訓(xùn)練過程中 Elo 分?jǐn)?shù)的變化情況,這里給出的是使用射手英雄「狄仁杰」的例子??梢杂^察到 Elo 分?jǐn)?shù)會(huì)隨訓(xùn)練時(shí)長而增長,并在大約 80小時(shí)后達(dá)到相對穩(wěn)定的水平。此外,Elo 的增長率與訓(xùn)練時(shí)間成反比。

  為了理解論文方法中不同組件和設(shè)置的效果,控制變量實(shí)驗(yàn)是必不可少的。表 5 展示了使用同樣訓(xùn)練資源的不同「狄仁杰」AI 版本的實(shí)驗(yàn)結(jié)果。

  本文提出的框架和算法將在未來開源,而且為了促進(jìn)對復(fù)雜游戲的進(jìn)一步研究,騰訊也將在未來把《王者榮耀》的游戲內(nèi)核提供給社區(qū)使用,并且還會(huì)通過虛擬云的形式向社區(qū)提供計(jì)算資源。

?
? 2010-2015 河北j9國際站(中國)集團(tuán)官網(wǎng)科技有限公司 版權(quán)所有  網(wǎng)站地圖
乌拉特前旗| 遵义县| 永清县| 莎车县| 雷州市| 老河口市| 喀什市| 萝北县| 昔阳县| 罗甸县| 抚顺市| 即墨市| 海城市| 五指山市| 屯留县| 聂荣县| 潞西市| 琼结县| 修水县| 固始县| 湘西| 隆化县| 武强县| 兴义市| 柞水县| 麻阳| 澎湖县| 张家港市| 北辰区| 屏东市| 榆树市| 驻马店市| 渝中区| 泰宁县| 孝昌县| 天柱县| 北碚区| 冀州市| 汪清县| 江口县| 扶余县|