顯示廣告
隱藏 ✕
※ 本文為 tom50512 轉寄自 ptt.cc 更新時間: 2018-09-19 09:14:49
看板 C_Chat
作者 qweewqq (風一樣的男子)
標題 [新聞] 一個AI玩57個遊戲 DeepMind離萬能AI不遠
時間 Wed Sep 19 01:02:52 2018


一個AI玩57個遊戲 DeepMind離萬能通用AI不遠了

文章來源:公眾號 量子位

  DeepMind剛剛宣佈,他們在多工學習上取得了巨大的進展,也就是讓單個智慧體學會
許多不同任務:

  DQN(Deep Q-Network)現在可以用同樣的演算法一口氣學會玩57個雅達利遊戲了,
而且玩得還不差,能達到人類中位數水準。

  這意味著,人類離創造出會做許多不同事情的通用人工智慧(AGI)又進了一步。

此前,每個智慧體(agent)只會玩一個遊戲,有專門玩《吃豆人》的,有專門玩《打磚
塊》的,有專門玩《乒乓球》的。如果讓學會了《打磚塊》的AI去玩《吃豆人》,那就會
撿了芝麻丟了西瓜,等它學會《吃豆人》,就把《打磚塊》給忘了。


  直到去年3月,DeepMind才研究出新的演算法,讓AI學會《吃豆人》後不忘記《打磚
塊》怎麼玩。

  但在讓1個AI學57個遊戲時,DeepMind遇到了問題:

  每個遊戲的計分機制不同,獎勵尺度也不同,AI只挑得分高的玩。

 △ 乒乓球

  拿玩乒乓球(Pong) 的遊戲來舉栗,每一步有三種可能的獎勵:

  -1:AI沒接住對方發來的球,不僅沒掙分,反而倒貼一分;

  0:AI接住了球,進入了敵我雙反循環往復的彈球過程,努力卻沒有收穫;

  +1:AI費了半天勁,終於讓對方失手一次,才能得1分,名義上是1分,實際這1分來
之不易。

  但如果AI選擇去玩吃豆人,只要一出門,就可以吃到一連串的豆豆,輕輕鬆松獲得幾
十上百分,分多、事少、易上手。

  之後每走一步 (轉彎) ,可能的獎勵就有很多種了:也許往前一格就死了,也許走
十幾格都沒遇到敵人,也許無敵狀態下吃掉幾隻敵人,分數會很不一樣。

  於是,只要不被敵人抓到,吃豆的獎勵明顯比打乒乓球高得多。

  AI每天沉迷吃豆,忘記打球,醉心於一小部分遊戲,全然不顧身上還肩負著代表全AI
界、學會全部57個雅達利遊戲的重任。

  這該如何是好?

  DeepMind想了想,推出了給智慧體“修改KPI”的大殺器:

  PopArt。

  具體怎麼玩?

  PopArt技術,可以讓不同遊戲的獎勵尺度互相適應起來,兩個遊戲就能受到相對平等
的對待。

  如此,就算分值的數量級相差很多,也不要緊。

  研究人員用PopArt調教了當前最先進的強化學習智慧體,使得一隻AI可以學會57種雅
達利遊戲了,表現超過了人類的中位數。

  其實,深度學習靠的是不斷更新的權重。這樣,輸出的動作就會越來越接近理想的動
作。

  這在深度強化學習裡,也一樣適用。

  PopArt的工作原理,就是估算各種目標動作之間的平均值,以彼此之間的差距有多大
。通過遊戲分值來估算。

  然後,在更新權重之前,用這些統計資料,把目標動作歸一化。

  這樣一來,學習過程就會變得比較穩定,不容易因為獎勵尺度之類的因素而發生改變

那麼,怎樣才能估計得准?

  那麼,怎樣才能估計得准?

  網路的輸出值,可以重新調回真實目標的範圍 (True Target Range) ,只要把歸
一化過程倒過來就好了。

  如果寫代碼不仔細,統計資料會把所有沒歸一的輸出全改了,就算是用不著歸一就已
經很好用的那種,也會改掉。

  要預防這種情況,DeepMind找到了一個方法,每次更新統計資料的時候,都把網路朝
著反方向更新一下。

  這種操作會成功,表示調整獎勵尺度 (同時,把之前學過的輸出就留在那裡不動)
,還是有用的。

  團隊說,之所以給AI起名PopArt (波普藝術) ,用意就是保存老的,加上新的。
PopArt替代的是獎勵剪裁 (Reward Clipping) 。

  PopArt替代的是獎勵剪裁 (Reward Clipping) 。

  一般來說,遇到獎勵尺度不同的情況,研究人員會選擇剪裁一下獎勵。

  把太大的和太小的,都調整到 [-1, 1] 的區間裡,這是歸一化的粗糙版。

  雖然,這個方法學習起來更容易,但學習目標也會發生變化。

  還是吃豆人的遊戲,目標就是吃豆和吃敵人,每顆豆10分,吃掉敵人會獲得200到1,
600不等的分數。

  剪裁獎勵的話,吃豆和吃敵人可能就沒區別了。這樣訓練出來的AI,很可能只吃豆,
完全不去追敵人,畢竟吃豆容易。

  這時候用PopArt歸一化,來代替剪裁步驟,訓練效果就截然不同了。智慧體會去追敵
人了,得的分數也高了許多。

  實驗結果

  最後,研究人員將PopArt應用於Importance-weighted Actor-Learner
Architecture (IMPALA)中,這是DeepMind此前提出的、最常用的深度強化學習智能體


  在ALE模擬器中,研究人員測試了57種Atari遊戲中,智慧體在獎勵剪裁和未剪裁兩種
情況下,應用PopArt前後的得分情況。

  可以看出,橙色的PopArt-IMPALA平均表現為人類正常得分中位數的110%,未剪裁版
中的平均得分為人類水準的101%,可以看出,無論剪裁與否,PopArt都能提高智慧體在遊
戲中的得分。


  藍色未應用PopArt的IMPALA智慧體表現比較糟糕,無論是否經過了剪裁。剪裁後的基
線總水準不足人類得分中位數的60%,未剪裁時的得分接近0%,與PopArt-IMPALA的表現形
成了鮮明的對比。


  此外,由於多工PopArt使用了特定級別值增加了網路容量,因此研究人員進行了額外
的實驗,想解開增加網路容量對自我調整歸一化的影響。圖中粉色的MultiHead-IMPALA走
勢,就是研究人員用特定級別的值預測,但不使用PopArt自我調整標準化學習得到的結果


  實驗表明,無論是否剪裁,MultiHead-IMPALA的表現都比IMPALA略差,這證實了
PopArt-IMPALA的性能提升確實是源於自我調整規模的變化(adaptive rescaling)。

  研究人員還研究了每種智慧體處理的總幀數的曲線。此前,DeepMind發佈了任務集合
DmLab-30,包含公共動作空間的視覺統一環境中的多種挑戰性任務,訓練智慧體再好不過


  在這裡,研究人員還是用自家的DmLab-30基準衡量應用了PopArt策略的效果優異程度
。圖中每一片顏色區域代表了最優得分和最差得分區間。可以看出,在家DMLab-30任務集
合上訓練時,仍然為PopArt策略下的智慧體表現最好。


  綜上所述,與沒有PopArt的基準智慧體相比,PopArt大大提高了智慧體的性能。無論
獎勵是否剪裁,PopArt智慧體在遊戲中的中位數得分高於人類中位數,遠遠高於結合了剪
裁獎勵的基準智慧體。而具有未剪裁獎勵的基線無法得出有意義的表現,因為它無法有效
處理遊戲中獎勵規模的大幅度變化。


  傳送門

  最後,附DeepMind官方博客位址:

https://goo.gl/PMPevd
Preserving Outputs Precisely while Adaptively Rescaling Targets | DeepMind
[圖]
We show that applying a PopArt normalisation to the state-of-the art reinforcement learning agent results in a single agent that can play a whole set  ...

 

  論文Multi-task Deep Reinforcement Learning with PopArt地址:

  https://arxiv.org/abs/1809.04474

http://sports.sina.com.cn/go/2018-09-18/doc-ifxeuwwr5482488.shtml

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.93.166
※ 文章代碼(AID): #1ReI--EC (C_Chat)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1537290174.A.38C.html
※ 編輯: qweewqq (118.233.93.166), 09/19/2018 01:05:11
Acetoxy: 還遠的很1F 09/19 01:04
Nuey: 嗯嗯 跟我想得差不多  樓下也是對吧2F 09/19 01:05
kuoyipong: 看不懂3F 09/19 01:05
KuBiLife: 現在打的贏sc2簡單電腦了嗎?4F 09/19 01:10
kaj1983: 會玩galgame了嗎?5F 09/19 01:11
s32244153: 玩HGAME 一次走57條路線6F 09/19 01:14
a210510: 等可以玩FGO一抽寶五  再跟我說7F 09/19 01:15
minoru04: 有種去玩ACTION 528F 09/19 01:18
siro0207: 想一想 其實AI在線上遊戲市場應該也是有需求的 邊緣人玩9F 09/19 01:19
siro0207: 邊緣多人遊戲沒真人可以配對的時候就可以讓AI上場
siro0207: 可溝通交流,會學習,會犯錯
kenyun: 吃豆人比乒乓好玩沒問題啊12F 09/19 01:22
uranus013: 我認為直到能訓練AI破解KOTY大賞作品時才算站上起跑點13F 09/19 01:22
shiro0701: 事情都挑簡單的做啊,AI連人類的缺點都學會了14F 09/19 01:24
DailySuicide: dqn不是什麼日文單詞嗎15F 09/19 01:24
nanami56: 以後線上遊戲玩法就是先買AI然後叫AI農16F 09/19 01:25
jonathan793: 看來離解決框架問題還遠得很17F 09/19 01:26
siscon: DQN=日本8+918F 09/19 01:26
leonho40412: 這篇沒閱讀難度 到底前幾樓是反串還是真的太記者了19F 09/19 01:28
yys310: 這樣就離萬能不遠了? 這啥結論20F 09/19 01:34
smart0eddie: 0.021F 09/19 01:45
kenyun: 哪個天才讓AI自寫程式  再給它評分系統  天網就完成了22F 09/19 01:51
LonyIce: 感覺還是跳脫不了設定23F 09/19 01:59
twtwch: 所以無雙一直有人支持24F 09/19 02:08
andey: 那給他玩 E.T.會怎樣?25F 09/19 02:09
twtwch: 跟一開始的ai一樣一直吃豆26F 09/19 02:10
Kenqr: 嗯嗯 跟我想的差不多27F 09/19 02:18
bitcch: 如何做出U戲天才AI28F 09/19 02:18
jixian: 哇29F 09/19 02:22
LuMya: 想看ai打爐石30F 09/19 02:47
swallow0327: 當然不可能有AI能跳脫設定亞,至少現階段是31F 09/19 03:11
idf64: Ai表示 糞game沒有玩的必要32F 09/19 04:54
abelyi100: 就想說吃豆人是什麼鬼,看原文果然是PACMAN33F 09/19 06:32
HOLDSTEAK: 什麼時候能做出軟體老婆(?)34F 09/19 07:11
bnn: ...什麼時候能看到AI一怒打開遊戲修改大師(?)35F 09/19 07:40
ernova831: 算了吧 上星海還不是被打成智障36F 09/19 08:09
GFGF: 原來 AI 也會覺得痛苦太多收穫太少 XD37F 09/19 08:10
notsmall: 感謝分享38F 09/19 08:12
Edwin0606: 還以為是在說蘇趴ㄟ哀絆愛   抽卡還抽到爆氣39F 09/19 08:27
GlowNight246: 撿了芝麻丟了西瓜是這樣用的嗎 = =40F 09/19 08:28
GlowNight246: Dota2 禁眼禁粉禁道具 逼人打線才贏非現役職業

--
※ 看板: ACG 文章推薦值: 1 目前人氣: 0 累積人氣: 174 
分享網址: 複製 已複製
( ̄︶ ̄)b win2000ps2 說讚!
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇