国产亚洲欧美日韩综合综合二区,欧美自拍区

2100場王者榮耀，1v1勝率99.8%，騰訊絕悟 AI 技術(shù)解

發(fā)布時(shí)間：2025-02-28 18:37

　　圍棋被攻克之后，多人在線戰(zhàn)術(shù)競技游戲（MOBA）已經(jīng)成為測試檢驗(yàn)前沿人工智能的動(dòng)作決策和預(yù)測能力的重要平臺?；隍v訊天美工作室開發(fā)的熱門 MOBA 類手游《王者榮耀》，騰訊 AI Lab 正努力探索強(qiáng)化學(xué)習(xí)技術(shù)在復(fù)雜環(huán)境中的應(yīng)用潛力。本文即是其中的一項(xiàng)成果，研究用深度強(qiáng)化學(xué)習(xí)來為智能體預(yù)測游戲動(dòng)作的方法，論文已被AAAI-2020接收。

　　此技術(shù)支持了騰訊此前推出的策略協(xié)作型 AI 「絕悟」1v1版本，該版本曾在今年8月上海舉辦的國際數(shù)碼互動(dòng)娛樂展覽會(huì)China Joy首次亮相，在2100多場和頂級業(yè)余玩家體驗(yàn)測試中勝率達(dá)到99.8%。

　　除了研究，騰訊AI Lab與王者榮耀還將聯(lián)合推出“開悟”AI+游戲開放平臺，打造產(chǎn)學(xué)研生態(tài)。王者榮耀會(huì)開放游戲數(shù)據(jù)、游戲核心集群（Game Core）和工具，騰訊AI Lab會(huì)開放強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)的計(jì)算平臺和算力，邀請高校與研究機(jī)構(gòu)共同推進(jìn)相關(guān)AI研究，并通過平臺定期測評，讓“開悟”成為展示多智能體決策研究實(shí)力的平臺。目前“開悟”平臺已啟動(dòng)高校內(nèi)測，預(yù)計(jì)在2020年5月全面開放高校測試，并且在測試環(huán)境上，支持1v1，5v5等多種模式；2020年12月，我們計(jì)劃舉辦第一屆的AI在王者榮耀應(yīng)用的水平測試。

　　在競爭環(huán)境中學(xué)習(xí)具備復(fù)雜動(dòng)作決策能力的智能體這一任務(wù)上，深度強(qiáng)化學(xué)習(xí)（DRL）已經(jīng)得到了廣泛的應(yīng)用。在競爭環(huán)境中，很多已有的 DRL 研究都采用了兩智能體游戲作為測試平臺，即一個(gè)智能體對抗另一個(gè)智能體（1v1）。

　　其中 Atari 游戲和棋盤游戲已經(jīng)得到了廣泛的研究，比如 2015 年 Mnih et al. 使用深度 Q 網(wǎng)絡(luò)訓(xùn)練了一個(gè)在 Atari 游戲上媲美人類水平的智能體；2016 年 Silver et al. 通過將監(jiān)督學(xué)習(xí)與自博弈整合進(jìn)訓(xùn)練流程中而將智能體的圍棋棋力提升到了足以擊敗職業(yè)棋手的水平；2017 年 Silver et al. 又更進(jìn)一步將更通用的 DRL 方法應(yīng)用到了國際象棋和日本將棋上。

　　本文研究的是一種復(fù)雜度更高一籌的MOBA 1v1 游戲。即時(shí)戰(zhàn)略游戲（RTS）被視為 AI 研究的一個(gè)重大挑戰(zhàn)。而MOBA 1v1 游戲就是一種需要高度復(fù)雜的動(dòng)作決策的 RTS 游戲。相比于棋盤游戲和 Atari 系列等 1v1 游戲，MOBA 的游戲環(huán)境要復(fù)雜得多，AI的動(dòng)作預(yù)測與決策難度也因此顯著提升。以 MOBA 手游《王者榮耀》中的 1v1 游戲?yàn)槔?，其狀態(tài)和所涉動(dòng)作的數(shù)量級分別可達(dá) 10^600和 10^18000，而圍棋中相應(yīng)的數(shù)字則為 10^170和 10^360，參見下表 1。

　　此外，MOBA 1v1 的游戲機(jī)制也很復(fù)雜。要在游戲中獲勝，智能體必須在部分可觀察的環(huán)境中學(xué)會(huì)規(guī)劃、攻擊、防御、控制技能組合以及誘導(dǎo)和欺騙對手。除了玩家與對手的智能體，游戲中還有其它很多游戲單位，比如小兵和炮塔。這會(huì)給目標(biāo)選擇帶來困難，因?yàn)檫@需要精細(xì)的決策序列和相應(yīng)的動(dòng)作執(zhí)行。

　　此外，MOBA 游戲中不同英雄的玩法也不一樣，因此就需要一個(gè)穩(wěn)健而統(tǒng)一的建模方式。還有一點(diǎn)也很重要：MOBA 1v1游戲缺乏高質(zhì)量人類游戲數(shù)據(jù)以便進(jìn)行監(jiān)督學(xué)習(xí)，因?yàn)橥婕以谕?1v1 模式時(shí)通常只是為了練習(xí)英雄，而主流 MOBA 游戲的正式比賽通常都采用 5v5 模式。

　　需要強(qiáng)調(diào)，本論文關(guān)注的是 MOBA 1v1 游戲而非MOBA 5v5 游戲，因?yàn)楹笳吒⒅厮兄悄荏w的團(tuán)隊(duì)合作策略而不是單個(gè)智能體的動(dòng)作決策?？紤]到這一點(diǎn)，MOBA 1v1游戲更適合用來研究游戲中的復(fù)雜動(dòng)作決策問題。

　　為了解決這些難題，本文設(shè)計(jì)了一種深度強(qiáng)化學(xué)習(xí)框架，并探索了一些算法層面的創(chuàng)新，對 MOBA 1v1 游戲這樣的多智能體競爭環(huán)境進(jìn)行了大規(guī)模的高效探索。文中設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)包含了對多模態(tài)輸入的編碼、對動(dòng)作中相關(guān)性的解耦、探索剪枝機(jī)制以及攻擊注意機(jī)制，以考慮 MOBA 1v1 游戲中游戲情況的不斷變化。

　　為了全面評估訓(xùn)練得到的 AI 智能體的能力上限和策略穩(wěn)健性，新設(shè)計(jì)的方法與職業(yè)玩家、頂級業(yè)務(wù)玩家以及其它在 MOBA 1v1 游戲上的先進(jìn)方法進(jìn)行了比較。

　　對需要高度復(fù)雜的動(dòng)作決策的 MOBA 1v1 游戲 AI 智能體的構(gòu)建進(jìn)行了全面而系統(tǒng)的研究。在系統(tǒng)設(shè)計(jì)方面，本文提出了一種深度強(qiáng)化學(xué)習(xí)框架，能提供可擴(kuò)展的和異步策略的訓(xùn)練。在算法設(shè)計(jì)方面，本文開發(fā)了一種用于建模 MOBA 動(dòng)作決策的 actor-critic 神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的優(yōu)化使用了一種多標(biāo)簽近端策略優(yōu)化（PPO）目標(biāo)，并提出了對動(dòng)作依賴關(guān)系的解耦方法、用于目標(biāo)選取的注意機(jī)制、用于高效探索的動(dòng)作掩碼、用于學(xué)習(xí)技能組合 LSTM 以及一個(gè)用于確保訓(xùn)練收斂的改進(jìn)版 PPO——dual-clip PPO。

　　在《王者榮耀》1v1 模式上的大量實(shí)驗(yàn)表明，訓(xùn)練得到的 AI 智能體能在多種不同類型的英雄上擊敗頂級職業(yè)玩家。

　　考慮到復(fù)雜智能體的動(dòng)作決策問題可能引入高方差的隨機(jī)梯度，所以有必要采用較大的批大小以加快訓(xùn)練速度。因此，本文設(shè)計(jì)了一種高可擴(kuò)展低耦合的系統(tǒng)架構(gòu)來構(gòu)建數(shù)據(jù)并行化。具體來說，這個(gè)架構(gòu)包含四個(gè)模塊：強(qiáng)化學(xué)習(xí)學(xué)習(xí)器（RL Learner）、人工智能服務(wù)器（AI Server）、分發(fā)模塊（Dispatch Module）和記憶池（Memory Pool）。如圖 1 所示。

　　AI 服務(wù)器實(shí)現(xiàn)的是 AI 模型與環(huán)境的交互方式。分發(fā)模塊是用于樣本收集、壓縮和傳輸?shù)墓ぷ髡?。記憶池是?shù)據(jù)存儲模塊，能為RL 學(xué)習(xí)器提供訓(xùn)練實(shí)例。這些模塊是分離的，可靈活配置，從而讓研究者可將重心放在算法設(shè)計(jì)和環(huán)境邏輯上。這樣的系統(tǒng)設(shè)計(jì)也可用于其它的多智能體競爭問題。

　　RL 學(xué)習(xí)器中實(shí)現(xiàn)了一個(gè) actor-critic 神經(jīng)網(wǎng)絡(luò)，其目標(biāo)是建模 MOBA 1v1 游戲中的動(dòng)作依賴關(guān)系。如圖2所示。

　　5.dual-clip PPO：這是 PPO 算法的一種改進(jìn)版本，使用它是為了確保使用大和有偏差的數(shù)據(jù)批進(jìn)行訓(xùn)練時(shí)的收斂性。如圖3所示。

　　測試平臺為熱門 MOBA 游戲《王者榮耀》的 1v1 游戲模式。為了評估 AI 在現(xiàn)實(shí)世界中的表現(xiàn)，這個(gè) AI 模型與《王者榮耀》職業(yè)選手和頂級業(yè)余人類玩家打了大量比賽。實(shí)驗(yàn)中 AI 模型的動(dòng)作預(yù)測時(shí)間間隔為 133 ms，這大約是業(yè)余高手玩家的反應(yīng)時(shí)間。另外，論文方法還與已有研究中的基準(zhǔn)方法進(jìn)行了比較，其中包括游戲內(nèi)置的決策樹方法以及其它研究中的 MTCS 及其變體方法。實(shí)驗(yàn)還使用Elo分?jǐn)?shù)對不同版本的模型進(jìn)行了比較。

　　表 3 給出了AI和多名頂級職業(yè)選手的比賽結(jié)果。需要指出這些職業(yè)玩家玩的都是他們擅長的英雄?？梢钥吹?AI 能在多種不同類型的英雄上擊敗職業(yè)選手。

　　實(shí)驗(yàn)進(jìn)一步評估了 AI 學(xué)習(xí)的策略能否應(yīng)對不同的頂級人類玩家。在2019年8月份，王者榮耀1v1 AI對公眾亮相，與大量頂級業(yè)余玩家進(jìn)行了2100場對戰(zhàn)。AI勝率達(dá)到99.81%。

　　圖 5 展示了訓(xùn)練過程中 Elo 分?jǐn)?shù)的變化情況，這里給出的是使用射手英雄「狄仁杰」的例子?？梢杂^察到 Elo 分?jǐn)?shù)會(huì)隨訓(xùn)練時(shí)長而增長，并在大約 80小時(shí)后達(dá)到相對穩(wěn)定的水平。此外，Elo 的增長率與訓(xùn)練時(shí)間成反比。

　　為了理解論文方法中不同組件和設(shè)置的效果，控制變量實(shí)驗(yàn)是必不可少的。表 5 展示了使用同樣訓(xùn)練資源的不同「狄仁杰」AI 版本的實(shí)驗(yàn)結(jié)果。

　　本文提出的框架和算法將在未來開源，而且為了促進(jìn)對復(fù)雜游戲的進(jìn)一步研究，騰訊也將在未來把《王者榮耀》的游戲內(nèi)核提供給社區(qū)使用，并且還會(huì)通過虛擬云的形式向社區(qū)提供計(jì)算資源。

美女a毛片,国内黄色一级精品,亚洲人成在线观看一区二区,亚洲a网站,殴美一级视频,日韩一区二区免费,国产www色

關(guān)于我們

ai資訊

ai應(yīng)用

聯(lián)系我們