顯示廣告
隱藏 ✕
※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2017-10-19 10:10:52
看板 Gossiping
作者 IN (願自身光明熾然照耀世界)
標題 [新聞] Nature刊登Deepmind論文 最強AlphaGoZero
時間 Thu Oct 19 09:52:31 2017


Nature刊登Deepmind論文,最強AlphaGo Zero已無需人類知識,AlphaGo慘敗

Inside 硬塞的網路趨勢觀察

2017/10/19  【合作媒體】雷鋒網   AlphaGo、DeepMind、人工智慧、深度學習

http://goo.gl/TG23Hq
[圖]
 

本文獲合作媒體 雷鋒網 授權轉載,作者 岑大師 。

AlphaGo「退役」了,但 Deepmind 在圍棋上的探索並沒有停止。

今年 5 月的烏鎮大會的「人機對局」中,中國棋手、世界冠軍柯潔 9 段以 0:3 不敵
 AlphaGo。隨後 Deepmind 創辦人 Hassabis 宣布,AlphaGo 將永久退出競技舞台,不再
進行比賽。

Hassbis 當時表示:「我們計劃在今年稍晚發布最後一篇學術論文,詳細介紹我們在演算
法效率上所取得的一系列進展,以及應用在其他更全面領域中的可能性。就像第一篇
 AlphaGo 論文一樣,我們希望更多的開發者能夠接過接力棒,利用這些全新的進展開發
出屬於自己的強大圍棋程式。」

今天,Deepmind 如約在 Nature 發布了這篇論文——在這篇名為《Mastering the game
of Go without human knowledge》(不使用人類知識制霸圍棋)的論文中,Deepmind 展
示了他們更強大的新版本圍棋程式「AlphaGo Zero」,驗證了即使在像圍棋這樣最具挑戰
性的領域,也可以通過純強化學習的方法自我完善達到目的。


http://goo.gl/VyKc2P
[圖]
 

論文摘要

人工智慧的一個長期目標是通過後天的自主學習(注:tabula rasa,意為「白板」,指
所有的知識都是逐漸從他們的感官和經驗而來),在一個具有挑戰性的領域創造出超越人
類的精通程度學習的演算法。之前,AlphaGo 成為首個戰勝人類圍棋世界冠軍的程式,當
時的 AlphaGo 通過深層神經網路進行決策,並使用人類專家下棋的資料進行監督學習,
同時也通過自我對弈進行強化學習。在這篇論文中,我們將介紹一種僅基於強化學習的演
算法,而不使用人類的資料、指導或規則以外的領域知識。AlphaGo 成為自己的老師,這
一神經網路被訓練用於預測 AlphaGo 自己的落子選擇,提高了決策樹搜尋的強度,使得
落子品質更高,具有更強的自我對弈迭代能力。從一塊白板開始,我們的新程式

 AlphaGo Zero 表現驚人,並以 100:0 擊敗了之前版本的 AlphaGo。

全新強化學習算法:無需任何人類指導

這篇論文的最大亮點,在於無需任何人類指導,通過全新的強化學習方式,人工智慧的程
式自己成為自己的老師,在圍棋這一個最具挑戰性的領域達到超過人類的精通程度。相比
起之前使用人類對弈的數據,這一個新的演算法訓練時間更短,僅用 3 天時間就達到了

擊敗李世石的 AlphaGo Lee 的水準,21 天就達到了之前擊敗柯潔的 AlphaGo Master 的水準。


在 3 天內——也就是 AlphaGo Zero 在擊敗 AlphaGo Lee 之前,曾進行過 490 萬次自
我對弈練習。相比之下,AlphaGo Lee 的訓練時間長達數月之久。AlphaGo Zero 不僅發
現了人類數千年來已有的許多圍棋策略,還設計了人類玩家以前未知的的策略。


https://www.inside.com.tw/wp-content/uploads/2017/10/59e7b478924ca.gif
[圖]
 

據 Deepmind 部落格 介紹,AlphaGo Zero 採用了新的強化學習方法,從一個不知道圍棋
遊戲規則的神經網路開始,通過將這個神經網路與強大的搜尋演算法結合,然後就可以實
現自我對弈了。在這樣的訓練過程中,神經網路不斷被更新和調整,並用於預測下一步落
子和最終的輸贏。


https://youtu.be/tXlM99xPQC8
AlphaGo Zero: Starting from scratch - YouTube
DeepMind's Professor David Silver describes AlphaGo Zero, the latest evolution of AlphaGo, the first computer program to defeat a world champion at the ancie...

 

這一更新後的神經網路將再度與搜尋演算法組合,過程不斷重複,最後建立了一個新的、
更強大版本的 AlphaGo Zero。在每次迭代中,系統的性能和自我對弈的品質均能夠有部
分提高。「日拱一卒,功不唐捐」,最終的神經網路越來越精確,AlphaGo Zero 也變得
更強。


AlphaGo Zero 與之前版本有如下不同:

AlphaGo Zero 只使用棋盤上的黑子和白子作為輸入,而之前版本 AlphaGo 的輸入均包含
部分人工特徵;

AlphaGo Zero 使用一個神經網路而不是之前的兩個。以前版本的 AlphaGo 使用一個「策
略網路」來選擇落子的位置,並使用另一個「價值網路」來預測遊戲的輸贏結果。而在
 AlphaGo Zero 中下一步落子的位置和輸贏評估在同一個神經網路中進行,從而使其可以
更好地進行訓練和評估。

AlphaGo Zero 無需進行隨機推演(Rollout)——這是一種在其他圍棋程式中廣泛使用於
勝負的快速隨機策略,從而通過比較確定每一手之後輸贏的機率,選擇最佳落子位置。相
反地,它依賴於高品質的神經網路來評估落子位置。


上述差異均有主於提高系統的性能和通用性,但使最關鍵的仍是演算法上的改進,不僅使
得 AlphaGo Zero 更加強大,在功耗上也更為高效。

http://goo.gl/WHWX9E
[圖]
 

雖然這一技術還處於早期階段,但 AlphaGo Zero 的突破使得我們在未來面對人類面對的
一些重大挑戰(如蛋白質折疊、減少能源消耗、尋找革命性的新材料等)充滿信心。

眾所周知,深度學習需要大量的資料,而在很多情況下,獲得大量資料的成本過於高昂,
甚至根本難以獲得。如果將該技術應用到其他問題上,將會有可能對我們的生活產生根本
性的影響。


新聞連結:
https://www.inside.com.tw/2017/10/19/alphago-zero
Nature 刊登 Deepmind 論文,最強 AlphaGo Zero 已無需人類知識,AlphaGo 慘敗 - INSIDE 硬塞的網路趨勢觀察
[圖]
Deepmind 如約在 Nature 發布了論文:從一塊白板開始,我們的新程式 AlphaGo Zero 表現驚人,並以 100:0 擊敗了之前版本的 AlphaGo。 ...

 

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.130.168.122
※ 文章代碼(AID): #1Pw0Lad8 (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1508377956.A.9C8.html
※ 編輯: IN (220.130.168.122), 10/19/2017 09:54:22
wotupset: AlphaGo 00 / AlphaGo W1F 10/19 09:53
eatingshit: 騙人死要錢??2F 10/19 09:53
perlone: 零式會有翅膀嗎3F 10/19 10:02
AncientLich: 其實我比較訝異的是範例gif中21天勝過柯傑後ELO並沒4F 10/19 10:03
AncientLich: 有如知識奇異點般的飛上去而是直接收斂了...
AncientLich: 這樣的AI感覺還是沒太大可看的地方
SpadeR: 人類全面潰敗7F 10/19 10:04

--
※ 看板: Gossiping 文章推薦值: 0 目前人氣: 0 累積人氣: 798 
分享網址: 複製 已複製
1樓 時間: 2017-10-19 10:29:36 (台灣)
  10-19 10:29 TW
會下圍棋又怎麼樣?
2樓 時間: 2017-10-19 10:30:03 (台灣)
  10-19 10:30 TW
結果是直接翻桌,同時全世界公告:我贏了!
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇