※ 本文為 tom50512 轉寄自 ptt.cc 更新時間: 2018-09-19 09:14:49
看板 C_Chat
作者 標題 [新聞] 一個AI玩57個遊戲 DeepMind離萬能AI不遠
時間 Wed Sep 19 01:02:52 2018
一個AI玩57個遊戲 DeepMind離萬能通用AI不遠了
文章來源:公眾號 量子位
DeepMind剛剛宣佈,他們在多工學習上取得了巨大的進展,也就是讓單個智慧體學會
許多不同任務:
DQN(Deep Q-Network)現在可以用同樣的演算法一口氣學會玩57個雅達利遊戲了,
而且玩得還不差,能達到人類中位數水準。
這意味著,人類離創造出會做許多不同事情的通用人工智慧(AGI)又進了一步。
此前,每個智慧體(agent)只會玩一個遊戲,有專門玩《吃豆人》的,有專門玩《打磚
塊》的,有專門玩《乒乓球》的。如果讓學會了《打磚塊》的AI去玩《吃豆人》,那就會
撿了芝麻丟了西瓜,等它學會《吃豆人》,就把《打磚塊》給忘了。
塊》的,有專門玩《乒乓球》的。如果讓學會了《打磚塊》的AI去玩《吃豆人》,那就會
撿了芝麻丟了西瓜,等它學會《吃豆人》,就把《打磚塊》給忘了。
直到去年3月,DeepMind才研究出新的演算法,讓AI學會《吃豆人》後不忘記《打磚
塊》怎麼玩。
但在讓1個AI學57個遊戲時,DeepMind遇到了問題:
每個遊戲的計分機制不同,獎勵尺度也不同,AI只挑得分高的玩。
△ 乒乓球
拿玩乒乓球(Pong) 的遊戲來舉栗,每一步有三種可能的獎勵:
-1:AI沒接住對方發來的球,不僅沒掙分,反而倒貼一分;
0:AI接住了球,進入了敵我雙反循環往復的彈球過程,努力卻沒有收穫;
+1:AI費了半天勁,終於讓對方失手一次,才能得1分,名義上是1分,實際這1分來
之不易。
但如果AI選擇去玩吃豆人,只要一出門,就可以吃到一連串的豆豆,輕輕鬆松獲得幾
十上百分,分多、事少、易上手。
之後每走一步 (轉彎) ,可能的獎勵就有很多種了:也許往前一格就死了,也許走
十幾格都沒遇到敵人,也許無敵狀態下吃掉幾隻敵人,分數會很不一樣。
於是,只要不被敵人抓到,吃豆的獎勵明顯比打乒乓球高得多。
AI每天沉迷吃豆,忘記打球,醉心於一小部分遊戲,全然不顧身上還肩負著代表全AI
界、學會全部57個雅達利遊戲的重任。
這該如何是好?
DeepMind想了想,推出了給智慧體“修改KPI”的大殺器:
PopArt。
具體怎麼玩?
PopArt技術,可以讓不同遊戲的獎勵尺度互相適應起來,兩個遊戲就能受到相對平等
的對待。
如此,就算分值的數量級相差很多,也不要緊。
研究人員用PopArt調教了當前最先進的強化學習智慧體,使得一隻AI可以學會57種雅
達利遊戲了,表現超過了人類的中位數。
其實,深度學習靠的是不斷更新的權重。這樣,輸出的動作就會越來越接近理想的動
作。
這在深度強化學習裡,也一樣適用。
PopArt的工作原理,就是估算各種目標動作之間的平均值,以彼此之間的差距有多大
。通過遊戲分值來估算。
然後,在更新權重之前,用這些統計資料,把目標動作歸一化。
這樣一來,學習過程就會變得比較穩定,不容易因為獎勵尺度之類的因素而發生改變
。
那麼,怎樣才能估計得准?
那麼,怎樣才能估計得准?
網路的輸出值,可以重新調回真實目標的範圍 (True Target Range) ,只要把歸
一化過程倒過來就好了。
如果寫代碼不仔細,統計資料會把所有沒歸一的輸出全改了,就算是用不著歸一就已
經很好用的那種,也會改掉。
要預防這種情況,DeepMind找到了一個方法,每次更新統計資料的時候,都把網路朝
著反方向更新一下。
這種操作會成功,表示調整獎勵尺度 (同時,把之前學過的輸出就留在那裡不動)
,還是有用的。
團隊說,之所以給AI起名PopArt (波普藝術) ,用意就是保存老的,加上新的。
PopArt替代的是獎勵剪裁 (Reward Clipping) 。
PopArt替代的是獎勵剪裁 (Reward Clipping) 。
一般來說,遇到獎勵尺度不同的情況,研究人員會選擇剪裁一下獎勵。
把太大的和太小的,都調整到 [-1, 1] 的區間裡,這是歸一化的粗糙版。
雖然,這個方法學習起來更容易,但學習目標也會發生變化。
還是吃豆人的遊戲,目標就是吃豆和吃敵人,每顆豆10分,吃掉敵人會獲得200到1,
600不等的分數。
剪裁獎勵的話,吃豆和吃敵人可能就沒區別了。這樣訓練出來的AI,很可能只吃豆,
完全不去追敵人,畢竟吃豆容易。
這時候用PopArt歸一化,來代替剪裁步驟,訓練效果就截然不同了。智慧體會去追敵
人了,得的分數也高了許多。
實驗結果
最後,研究人員將PopArt應用於Importance-weighted Actor-Learner
Architecture (IMPALA)中,這是DeepMind此前提出的、最常用的深度強化學習智能體
。
在ALE模擬器中,研究人員測試了57種Atari遊戲中,智慧體在獎勵剪裁和未剪裁兩種
情況下,應用PopArt前後的得分情況。
可以看出,橙色的PopArt-IMPALA平均表現為人類正常得分中位數的110%,未剪裁版
中的平均得分為人類水準的101%,可以看出,無論剪裁與否,PopArt都能提高智慧體在遊
戲中的得分。
中的平均得分為人類水準的101%,可以看出,無論剪裁與否,PopArt都能提高智慧體在遊
戲中的得分。
藍色未應用PopArt的IMPALA智慧體表現比較糟糕,無論是否經過了剪裁。剪裁後的基
線總水準不足人類得分中位數的60%,未剪裁時的得分接近0%,與PopArt-IMPALA的表現形
成了鮮明的對比。
線總水準不足人類得分中位數的60%,未剪裁時的得分接近0%,與PopArt-IMPALA的表現形
成了鮮明的對比。
此外,由於多工PopArt使用了特定級別值增加了網路容量,因此研究人員進行了額外
的實驗,想解開增加網路容量對自我調整歸一化的影響。圖中粉色的MultiHead-IMPALA走
勢,就是研究人員用特定級別的值預測,但不使用PopArt自我調整標準化學習得到的結果
。
的實驗,想解開增加網路容量對自我調整歸一化的影響。圖中粉色的MultiHead-IMPALA走
勢,就是研究人員用特定級別的值預測,但不使用PopArt自我調整標準化學習得到的結果
。
實驗表明,無論是否剪裁,MultiHead-IMPALA的表現都比IMPALA略差,這證實了
PopArt-IMPALA的性能提升確實是源於自我調整規模的變化(adaptive rescaling)。
PopArt-IMPALA的性能提升確實是源於自我調整規模的變化(adaptive rescaling)。
研究人員還研究了每種智慧體處理的總幀數的曲線。此前,DeepMind發佈了任務集合
DmLab-30,包含公共動作空間的視覺統一環境中的多種挑戰性任務,訓練智慧體再好不過
。
DmLab-30,包含公共動作空間的視覺統一環境中的多種挑戰性任務,訓練智慧體再好不過
。
在這裡,研究人員還是用自家的DmLab-30基準衡量應用了PopArt策略的效果優異程度
。圖中每一片顏色區域代表了最優得分和最差得分區間。可以看出,在家DMLab-30任務集
合上訓練時,仍然為PopArt策略下的智慧體表現最好。
。圖中每一片顏色區域代表了最優得分和最差得分區間。可以看出,在家DMLab-30任務集
合上訓練時,仍然為PopArt策略下的智慧體表現最好。
綜上所述,與沒有PopArt的基準智慧體相比,PopArt大大提高了智慧體的性能。無論
獎勵是否剪裁,PopArt智慧體在遊戲中的中位數得分高於人類中位數,遠遠高於結合了剪
裁獎勵的基準智慧體。而具有未剪裁獎勵的基線無法得出有意義的表現,因為它無法有效
處理遊戲中獎勵規模的大幅度變化。
獎勵是否剪裁,PopArt智慧體在遊戲中的中位數得分高於人類中位數,遠遠高於結合了剪
裁獎勵的基準智慧體。而具有未剪裁獎勵的基線無法得出有意義的表現,因為它無法有效
處理遊戲中獎勵規模的大幅度變化。
傳送門
最後,附DeepMind官方博客位址:
https://goo.gl/PMPevd
Preserving Outputs Precisely while Adaptively Rescaling Targets | DeepMind
We show that applying a PopArt normalisation to the state-of-the art reinforcement learning agent results in a single agent that can play a whole set ...
We show that applying a PopArt normalisation to the state-of-the art reinforcement learning agent results in a single agent that can play a whole set ...
論文Multi-task Deep Reinforcement Learning with PopArt地址:
https://arxiv.org/abs/1809.04474
http://sports.sina.com.cn/go/2018-09-18/doc-ifxeuwwr5482488.shtml
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.93.166
※ 文章代碼(AID): #1ReI--EC (C_Chat)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1537290174.A.38C.html
※ 編輯: qweewqq (118.233.93.166), 09/19/2018 01:05:11
--
推 : 還遠的很1F 09/19 01:04
推 : 嗯嗯 跟我想得差不多 樓下也是對吧2F 09/19 01:05
噓 : 看不懂3F 09/19 01:05
→ : 現在打的贏sc2簡單電腦了嗎?4F 09/19 01:10
→ : 會玩galgame了嗎?5F 09/19 01:11
推 : 玩HGAME 一次走57條路線6F 09/19 01:14
推 : 等可以玩FGO一抽寶五 再跟我說7F 09/19 01:15
推 : 有種去玩ACTION 528F 09/19 01:18
推 : 想一想 其實AI在線上遊戲市場應該也是有需求的 邊緣人玩9F 09/19 01:19
→ : 邊緣多人遊戲沒真人可以配對的時候就可以讓AI上場
→ : 可溝通交流,會學習,會犯錯
→ : 邊緣多人遊戲沒真人可以配對的時候就可以讓AI上場
→ : 可溝通交流,會學習,會犯錯
推 : 吃豆人比乒乓好玩沒問題啊12F 09/19 01:22
推 : 我認為直到能訓練AI破解KOTY大賞作品時才算站上起跑點13F 09/19 01:22
推 : 事情都挑簡單的做啊,AI連人類的缺點都學會了14F 09/19 01:24
推 : dqn不是什麼日文單詞嗎15F 09/19 01:24
推 : 以後線上遊戲玩法就是先買AI然後叫AI農16F 09/19 01:25
推 : 看來離解決框架問題還遠得很17F 09/19 01:26
推 : DQN=日本8+918F 09/19 01:26
推 : 這篇沒閱讀難度 到底前幾樓是反串還是真的太記者了19F 09/19 01:28
→ : 這樣就離萬能不遠了? 這啥結論20F 09/19 01:34
推 : 0.021F 09/19 01:45
推 : 哪個天才讓AI自寫程式 再給它評分系統 天網就完成了22F 09/19 01:51
推 : 感覺還是跳脫不了設定23F 09/19 01:59
推 : 所以無雙一直有人支持24F 09/19 02:08
推 : 那給他玩 E.T.會怎樣?25F 09/19 02:09
→ : 跟一開始的ai一樣一直吃豆26F 09/19 02:10
推 : 嗯嗯 跟我想的差不多27F 09/19 02:18
推 : 如何做出U戲天才AI28F 09/19 02:18
推 : 哇29F 09/19 02:22
推 : 想看ai打爐石30F 09/19 02:47
推 : 當然不可能有AI能跳脫設定亞,至少現階段是31F 09/19 03:11
推 : Ai表示 糞game沒有玩的必要32F 09/19 04:54
推 : 就想說吃豆人是什麼鬼,看原文果然是PACMAN33F 09/19 06:32
推 : 什麼時候能做出軟體老婆(?)34F 09/19 07:11
→ : ...什麼時候能看到AI一怒打開遊戲修改大師(?)35F 09/19 07:40
推 : 算了吧 上星海還不是被打成智障36F 09/19 08:09
推 : 原來 AI 也會覺得痛苦太多收穫太少 XD37F 09/19 08:10
推 : 感謝分享38F 09/19 08:12
推 : 還以為是在說蘇趴ㄟ哀絆愛 抽卡還抽到爆氣39F 09/19 08:27
推 : 撿了芝麻丟了西瓜是這樣用的嗎 = =40F 09/19 08:28
→ : Dota2 禁眼禁粉禁道具 逼人打線才贏非現役職業
→ : Dota2 禁眼禁粉禁道具 逼人打線才贏非現役職業
--
※ 看板: ACG 文章推薦值: 1 目前人氣: 0 累積人氣: 174
回列表(←)
分享