※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2020-01-21 11:53:42
看板 Gossiping
作者 標題 [新聞] AlphaGo之父黃士傑揭露DeepMind通用AI布
時間 Tue Jan 21 09:26:34 2020
ithome
AlphaGo之父黃士傑揭露DeepMind通用AI布局,最終目標要協助人類解決全球暖化難題
文/王若樸 | 2020-01-20發表
「我們的目標,是要打造通用AI,來協助人類解決世界上的難題,」DeepMind資深工程師
、AlphaGo之父黃士傑雙眼炯炯有神地說。他去年12月底來臺演講時,分享了自己與
DeepMind的觀點,更指出「AI也許會提供我們從未想過的方法,幫助我們解決全球暖化、
能源不足等問題。」
而DeepMind押寶通用AI的新進展,就是去年11月底發表的MuZero,採強化學習,成功挑戰
AI難以致勝的雅達利(Atari)遊戲,一舉在57種雅達利遊戲中達到SOTA等級,更在國際
象棋、日本將棋和圍棋等複雜的棋盤遊戲中,超越前代精通這三種棋藝的AlphaZero。
AI難以致勝的雅達利(Atari)遊戲,一舉在57種雅達利遊戲中達到SOTA等級,更在國際
象棋、日本將棋和圍棋等複雜的棋盤遊戲中,超越前代精通這三種棋藝的AlphaZero。
其中的關鍵,就是MuZero可從遊戲中,自行找出規則。進一步來說,MuZero演算法結合了
樹狀搜尋架構和學習模型,當它接收到棋盤影像或雅達利遊戲螢幕截圖後,便不斷地更新
迭代,來決定下一步的策略、價值函數,以及即時獎勵。MuZero正是利用這個方法,摸索
出「精準的規則,」DeepMind在論文中寫道。
樹狀搜尋架構和學習模型,當它接收到棋盤影像或雅達利遊戲螢幕截圖後,便不斷地更新
迭代,來決定下一步的策略、價值函數,以及即時獎勵。MuZero正是利用這個方法,摸索
出「精準的規則,」DeepMind在論文中寫道。
黃士傑比喻,「MuZero就好比會做夢的AlphaGo。」有別於需要真實棋譜資料的AlphaGo,
MuZero不需輸入任何真實棋譜,就可自行建構棋盤。這個方法,不需要每走一步就執行一
次模擬器(Simulator),也因此「加速了類神經網路的學習速度。」在黃士傑看來,
MuZero不需輸入任何真實棋譜,就可自行建構棋盤。這個方法,不需要每走一步就執行一
次模擬器(Simulator),也因此「加速了類神經網路的學習速度。」在黃士傑看來,
MuZero打開了一扇窗,讓AlphaGo的方法可運用到更多決策領域,是邁向通用AI的里程碑
。
DeepMind布局通用AI,從學習人類經驗的AlphaGo邁出第一步
DeepMind對通用AI的布局,還可從圍棋說起。2012年,黃士傑受邀加入DeepMind,2年後
,Google併購DeepMind,決定發展圍棋AI,來挑戰電腦尚未突破的領域。
這套圍棋AI,就是家喻戶曉的AlphaGo。AlphaGo以黃士傑多年前開發的單機版圍棋程式
Erica為基礎,為了打造媲美人類專家的圍棋AI,DeepMind決定採用新方法,也就是模仿
人類思考的深度學習類神經網路,來改造線性模型的Erica。
Erica為基礎,為了打造媲美人類專家的圍棋AI,DeepMind決定採用新方法,也就是模仿
人類思考的深度學習類神經網路,來改造線性模型的Erica。
於是,AlphaGo專案負責人David Silver,要求黃士傑以C++重寫Erica,先打造一套基本
模型,再來測試類神經網路。後來,Google Brain的深度學習專家Chris Maddison和
llya Sutskever也加入AlphaGo團隊,一起研發這套圍棋AI。
團隊首先利用人類棋譜來訓練AlphaGo的策略網路(Policy Network),也就是下棋的策
略,再利用價值網路(Value Network)來判斷局勢、預測贏家。這一點,再加上強化學
習,讓AlphaGo不斷自我對奕、自我學習。
略,再利用價值網路(Value Network)來判斷局勢、預測贏家。這一點,再加上強化學
習,讓AlphaGo不斷自我對奕、自我學習。
後來,2016年,AI專用硬體如TPU逐漸成熟,大幅提高AlphaGo的勝率。經過無數次反覆訓
練,AlphaGo先是贏過歐洲圍棋冠軍樊麾,登上《自然》期刊,又陸續贏過世界圍棋冠軍
李世石、柯潔,成功向世人證明了AI的潛力。
練,AlphaGo先是贏過歐洲圍棋冠軍樊麾,登上《自然》期刊,又陸續贏過世界圍棋冠軍
李世石、柯潔,成功向世人證明了AI的潛力。
AI再演進,AlphaZero不需人類經驗就能精通三種棋藝
AlphaGo打敗世界圍棋冠軍後,團隊乘著這股氣勢,展開另一項專案,打造出不需要海量
訓練資料,就能自我訓練、學習規則的AI模型AlphaGo Zero。AlphaGo Zero能從零開始,
不需人為干預,也不需要真實棋譜資料,就可自學下圍棋、摸索出關鍵知識,而且,經過
3天自我對奕490萬次,就以100比0完勝打敗李世石的AlphaGo。
訓練資料,就能自我訓練、學習規則的AI模型AlphaGo Zero。AlphaGo Zero能從零開始,
不需人為干預,也不需要真實棋譜資料,就可自學下圍棋、摸索出關鍵知識,而且,經過
3天自我對奕490萬次,就以100比0完勝打敗李世石的AlphaGo。
而在短短48天後,團隊進一步開發出能下圍棋、日本將棋和西洋棋的AlphaZero。
AlphaZero維持了AlphaGo Zero的特性,一樣結合蒙地卡羅樹搜尋方法、能從零開始自我
學習,但不同的是,在開發過程中,團隊使用了5千個第一代TPU來產生遊戲,再利用64個
第二代TPU來訓練類神經網路。
學習,但不同的是,在開發過程中,團隊使用了5千個第一代TPU來產生遊戲,再利用64個
第二代TPU來訓練類神經網路。
結果,在24小時內,透過自我學習的AlphaZero,就打敗了三種棋類的電腦程式冠軍,也
就是Stockfish、elmo,以及3天版本的AlphaGo Zero。而記載對戰結果的AlphaZero論文
,更登上《科學》封面。
就是Stockfish、elmo,以及3天版本的AlphaGo Zero。而記載對戰結果的AlphaZero論文
,更登上《科學》封面。
AlphaStar靠模仿學習面對新關卡,挑戰更高難度的即時策略遊戲星海爭霸II
不只在棋類上下功夫,DeepMind也將領域擴大到更有挑戰性的電玩遊戲,也就是即時策略
遊戲星海爭霸II,來驗證強化學習的能力。這次,強化學習依然是主角,但不同的是,「
我們開發的AlphaStar採用學習人類知識的模仿學習(Imitation Learning),」來解決
在環境變數非常大的情況下,AI花費大量時間嘗試解法的問題。
遊戲星海爭霸II,來驗證強化學習的能力。這次,強化學習依然是主角,但不同的是,「
我們開發的AlphaStar採用學習人類知識的模仿學習(Imitation Learning),」來解決
在環境變數非常大的情況下,AI花費大量時間嘗試解法的問題。
黃士傑解釋,AlphaStar在開發的前半年,完全採自我對戰方式來學習,但是,這個做法
「出現了探索(Exploration)問題。」舉例來說,當AI代理人要在遊戲畫面中選擇正確
的點,會花大量時間來嘗試所有的可能;假設「螢幕解析度是50x50,畫面中就包含了
「出現了探索(Exploration)問題。」舉例來說,當AI代理人要在遊戲畫面中選擇正確
的點,會花大量時間來嘗試所有的可能;假設「螢幕解析度是50x50,畫面中就包含了
2,500個點,而AI就會花大量時間,來嘗試這2,500個點,」由於選擇空間太大,造成學習
障礙。
因此,團隊決定讓AlphaStar向人類學習,採用模仿學習,讓AI代理人學習人類玩遊戲(
Replay),比如打造建築物的次序等。黃士傑指出,這就好比AlphaGo,以策略網路來學
習人類棋譜一樣,而模仿學習,讓結構比AlphaGo複雜學多的AlphaStar,「大幅進步。」
Replay),比如打造建築物的次序等。黃士傑指出,這就好比AlphaGo,以策略網路來學
習人類棋譜一樣,而模仿學習,讓結構比AlphaGo複雜學多的AlphaStar,「大幅進步。」
AlphaStar的另一個特點,就是優化的搜尋架構。黃士傑指出,有別於AlphaGo,有套專門
的搜尋架構來輔助找出致勝策略,AlphaStar直接將搜尋架構嵌入類神經網路中,融為一
體。也因此,團隊花了許多時間來微調、優化搜尋架構,從行動延遲(Action deplays)
開始,歷經指標網路(Pointer network)、Transformer,最後找出勝率最高的
的搜尋架構來輔助找出致勝策略,AlphaStar直接將搜尋架構嵌入類神經網路中,融為一
體。也因此,團隊花了許多時間來微調、優化搜尋架構,從行動延遲(Action deplays)
開始,歷經指標網路(Pointer network)、Transformer,最後找出勝率最高的
Scattered connections(如下圖)。
不只如此,「AlphaStar還有多重AI代理人的特色,透過這些代理人,來找出主要代理人
的弱點,協助改進。」黃士傑解釋,由於星海爭霸II為即時策略遊戲,在地圖黑暗的情況
下,AI代理人只能透過對手的反應,來擬定策略,有如賽局理論中的Nash均衡概念。因此
,為了強化策略擬定,AlphaStar在訓練過程中,引進了Exploiter類型的AI代理人,目標
是要贏過主要代理人,找出缺點,協助主要代理人改進。
的弱點,協助改進。」黃士傑解釋,由於星海爭霸II為即時策略遊戲,在地圖黑暗的情況
下,AI代理人只能透過對手的反應,來擬定策略,有如賽局理論中的Nash均衡概念。因此
,為了強化策略擬定,AlphaStar在訓練過程中,引進了Exploiter類型的AI代理人,目標
是要贏過主要代理人,找出缺點,協助主要代理人改進。
後來,AlphaStar在一場美國電競賽中,以4:1贏過世界冠軍,更在2019年10月,打敗
Battle.net平臺上99.8%的星海爭霸II活躍玩家,更在人族、神族和蟲族達到宗師等級。
這個成果,也讓AlphaStar論文登上《自然》期刊,更鋪墊後來MuZero的基礎。
堅持己愛,保持開放的心
話鋒一轉,黃士傑指出,自己能有今日的成就,還歸功於堅持己愛。他從小熱愛圍棋,即
使在臺灣師範大學攻讀博士時,也是圍棋社的一員,更與同學開發棋類電腦程式,堅持每
年到國外參加電腦奧林匹亞競賽(Computer Olympiad)。
使在臺灣師範大學攻讀博士時,也是圍棋社的一員,更與同學開發棋類電腦程式,堅持每
年到國外參加電腦奧林匹亞競賽(Computer Olympiad)。
而黃士傑好學的心態,讓他在國外參賽的過程中,打下了國際鏈結基礎。「我英文不是很
好,但我喜歡問問題,」他指出,自己參加國際比賽時,喜歡與不同國家的研究員交談,
特別是在2007年一場比賽,結識了日後的恩師,也是Erica共同開發者的法國電腦圍棋大
師Rémi Coulom。
好,但我喜歡問問題,」他指出,自己參加國際比賽時,喜歡與不同國家的研究員交談,
特別是在2007年一場比賽,結識了日後的恩師,也是Erica共同開發者的法國電腦圍棋大
師Rémi Coulom。
當年,電腦圍棋程式大幅進步,不僅在9x9的小圍棋上,媲美六段的專業棋士,而由Ré
mi Coulom開發的電腦圍棋程式Crazy Stone,更打敗了黃士傑。
後來,黃士傑憑著對圍棋電腦程式的熱忱,透過視訊、Email與Rémi Coulom頻繁交流,
開發一套線性模型圍棋程式Erica,更在2010年時,奪下電腦圍棋程式的第一名。
在當年排行榜上,Erica是唯一一個只需要一臺8核心機器的電腦圍棋程式,而且在搜尋方
法上,也採用不少特殊技巧,「這些技巧,包括如何選步等公式,後來都寫在AlphaGo論
文中,至今仍沒有人能超越。」
法上,也採用不少特殊技巧,「這些技巧,包括如何選步等公式,後來都寫在AlphaGo論
文中,至今仍沒有人能超越。」
這場勝利,引起了當時DeepMind的首席科學家David Silver的注意,更親自邀請黃士傑加
入DeepMind團隊。而他,也在兩年後入夥,成為DeepMind成員之一,開始進行AlphaGo專
案。
入DeepMind團隊。而他,也在兩年後入夥,成為DeepMind成員之一,開始進行AlphaGo專
案。
「除了保持熱忱,也要有顆開放的心,更要當一個Easy to work with的人。」他舉例,
在執行AlphaGo專案時,團隊來了位25歲的成員Julian Schrittwieser。當時,黃士傑用
自己的方法來修改圍棋程式Erica的策略網路,雖然他認為自己的做法沒問題,但Julian
Schrittwieser則表示,用C++ Template重寫會更好,於是就花了1、2天時間修改。
在執行AlphaGo專案時,團隊來了位25歲的成員Julian Schrittwieser。當時,黃士傑用
自己的方法來修改圍棋程式Erica的策略網路,雖然他認為自己的做法沒問題,但Julian
Schrittwieser則表示,用C++ Template重寫會更好,於是就花了1、2天時間修改。
結果顯示,「演算法執行速度確實快很多,」黃士傑也從中學習到,要保持一顆敞開的心
,欣賞他人優點,作為一個團隊中容易相處的人。此外,他也強調團隊合作的重要。
「AI是個團隊合作的時代,就算是圖靈獎的得主,也是帶著一支團隊在開發。」就以
AlphaGo團隊為例,「每個人都扮演著關鍵角色,」比如負責訓練類神經網路的、連接TPU
的,甚至包括系統測試的,「多虧他們的專業知識,替我們抓出許多Bug,才能讓AlphaGo
不斷進步、寫下歷史,」黃士傑說。
的,甚至包括系統測試的,「多虧他們的專業知識,替我們抓出許多Bug,才能讓AlphaGo
不斷進步、寫下歷史,」黃士傑說。
最後,他也總結,「很多巨大的飛躍,都起始於一小步。」他坦言,AlphaGo的進展也是
一點一滴累積出來的;一切起始於他對圍棋的熱情,讓他結識了Rémi Coulom、開發出
Erica,後來更進入DeepMind,靠著前人在AI的研究心血,以及Google的深度學習團隊,
才開發出擊敗人類圍棋冠軍的AlphaGo。「只要有熱情,不管做任何事,總有一天會帶來
巨大的飛躍,」他肯定地說。
一點一滴累積出來的;一切起始於他對圍棋的熱情,讓他結識了Rémi Coulom、開發出
Erica,後來更進入DeepMind,靠著前人在AI的研究心血,以及Google的深度學習團隊,
才開發出擊敗人類圍棋冠軍的AlphaGo。「只要有熱情,不管做任何事,總有一天會帶來
巨大的飛躍,」他肯定地說。
文◎王若樸
https://www.ithome.com.tw/news/135433
AlphaGo之父黃士傑揭露DeepMind通用AI布局,最終目標要協助人類解決全球暖化難題 | iThome
黃士傑上月底來臺分享經驗,指出DeepMind的最終目標,是要開發一套通用AI,來協助人類解決世界上的難題,比如全球暖化。另外,他也表示,AI是團隊合作的時代,就算是圖靈獎得主,也是帶著團隊做專案。因此,他認為,除了專業技能,還要抱持一顆敞開的心,讓自己成為團隊中容易相處的人(Easy to wor ...
黃士傑上月底來臺分享經驗,指出DeepMind的最終目標,是要開發一套通用AI,來協助人類解決世界上的難題,比如全球暖化。另外,他也表示,AI是團隊合作的時代,就算是圖靈獎得主,也是帶著團隊做專案。因此,他認為,除了專業技能,還要抱持一顆敞開的心,讓自己成為團隊中容易相處的人(Easy to wor ...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.227.139.247 (臺灣)
※ 文章代碼(AID): #1U9bDErC (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1579569998.A.D4C.html
推 : 解決人類暖化問題的答案就是解決人類1F 114.39.154.126 台灣 01/21 09:27
推 : 真的是讓人類數量減少最好 天網來了2F 180.218.173.106 台灣 01/21 09:28
推 : 我還以為是alpha go的滑鼠3F 27.247.40.145 台灣 01/21 09:28
→ : 阿諾會保護大家的4F 114.36.141.82 台灣 01/21 09:29
推 : 解決人類最快5F 101.136.80.173 台灣 01/21 09:30
推 : 消滅一半人類應該就差不多了6F 61.216.64.210 台灣 01/21 09:30
推 : 解決方法就一樓所提,還要用到AI喔…7F 111.82.163.95 台灣 01/21 09:30
推 : 直覺跟一樓想的一樣耶 電影要上演了8F 211.22.107.11 台灣 01/21 09:31
推 : 阿發斯蓋虐啪9F 39.9.30.87 台灣 01/21 09:32
推 : 這片我看過 機械公敵有演過10F 36.231.16.39 台灣 01/21 09:33
→ : 天網要上線了11F 61.223.13.239 台灣 01/21 09:35
推 : 還以為揭露deepfake12F 123.194.22.137 台灣 01/21 09:35
推 : 乾 這可以拍傳記片惹13F 61.224.177.211 台灣 01/21 09:37
推 : 幹 這不就天網14F 49.216.54.227 台灣 01/21 09:38
推 : 這我看過 天網嘛對不對15F 101.15.151.93 台灣 01/21 09:38
→ : 解決人類(O 解決暖化問題(O16F 36.228.25.217 台灣 01/21 09:40
→ : 比阿發狗還強 還能自我學習17F 49.216.54.227 台灣 01/21 09:41
→ : 解決人類就是要消滅人類18F 110.50.180.93 台灣 01/21 09:42
推 : 方法:消滅人類19F 114.137.26.35 台灣 01/21 09:42
推 : 審判日倒數計時開始20F 210.242.157.127 台灣 01/21 09:43
推 : 下一步是美國政府會拿去計算實際戰場21F 36.231.16.39 台灣 01/21 09:44
→ : 先去問優格22F 118.163.254.217 台灣 01/21 09:48
推 : 要小心一個瘋女人帶著小毛頭殺到你家喔23F 218.161.70.177 台灣 01/21 09:48
→ : 末日倒數計時24F 220.129.100.190 台灣 01/21 09:49
→ : 靠北 這最佳解答電影有演過 我記得25F 210.68.238.238 台灣 01/21 09:50
→ : 我想的跟一樓一樣XD26F 101.12.0.198 台灣 01/21 09:50
推 : 天網0.127F 114.41.225.169 台灣 01/21 09:50
推 : ai:消滅人類28F 36.231.66.231 台灣 01/21 09:55
推 : 跳脫人類角度的話 感覺得出殺光人類做29F 49.216.56.78 台灣 01/21 09:57
→ : 結論蠻有可能的
→ : 結論蠻有可能的
推 : 然後出現讓人不結婚交配的pornhub31F 111.254.200.226 台灣 01/21 09:59
→ : 發展天網32F 111.71.53.90 台灣 01/21 10:00
推 : 土博之光33F 111.71.60.131 台灣 01/21 10:00
推 : 解決全球暖化的答案:消滅人類34F 223.141.6.59 台灣 01/21 10:02
推 : 最後發現要解決人類35F 140.109.81.185 台灣 01/21 10:02
推 : Hell sj36F 180.217.111.174 台灣 01/21 10:03
推 : 怕37F 27.52.190.14 台灣 01/21 10:04
推 : 解決人類啊38F 39.8.234.185 台灣 01/21 10:05
推 : 解決人類 339F 223.136.94.55 台灣 01/21 10:07
推 : 天網登入中40F 60.250.246.49 台灣 01/21 10:09
推 : 幹,天網! 人類乖乖當家畜就沒事了41F 117.56.249.235 台灣 01/21 10:12
推 : 乾阿不就天網42F 133.5.36.166 日本 01/21 10:14
推 : 天網43F 128.146.189.90 美國 01/21 10:15
推 : 解決製造問題的人…(抖)44F 223.140.149.234 台灣 01/21 10:16
推 : 解決地球暖化的最佳方法就是消除人類45F 223.137.8.163 台灣 01/21 10:17
推 : AI 計算到最後發現,消滅人類才是最終解答46F 39.1.36.157 台灣 01/21 10:17
→ : 啊47F 223.137.8.163 台灣 01/21 10:17
推 : 推 台灣之光48F 211.21.30.85 台灣 01/21 10:17
→ : ,於是審判日就來了。49F 39.1.36.157 台灣 01/21 10:17
→ : 阿就天網阿50F 114.136.22.106 台灣 01/21 10:17
推 : 推推 天網不遠了51F 211.21.221.184 台灣 01/21 10:22
推 : 殺光人類地球就不會暖化了呀!52F 61.221.66.178 台灣 01/21 10:27
→ : 思路是解決有問題的人,果然天網要上線53F 111.71.48.247 台灣 01/21 10:29
→ : 了。
→ : 了。
→ : 之後會飛去外太空,魔法禁書有演過55F 1.163.193.229 台灣 01/21 10:34
推 : 比一些PTT造神的咖強多了56F 60.251.133.62 台灣 01/21 10:34
→ HwaSIn …
推 : AI:解決人類=解決暖化58F 39.9.233.65 台灣 01/21 10:41
推 : 解決方式 把人類做成棋子59F 49.216.52.74 台灣 01/21 10:42
推 : AI:人類太可惡……60F 101.13.140.255 台灣 01/21 10:44
推 : 最優解 解決人類61F 111.242.216.199 台灣 01/21 10:45
→ : 把算法包裝成AI也是很會62F 101.137.207.244 台灣 01/21 10:50
→ : 完了 電影情節要變成現實了63F 116.241.31.227 台灣 01/21 10:56
→ : 最終目標就是發大財64F 49.215.186.75 台灣 01/21 10:57
推 : 天網終究會來,但人類無法回到過去消滅65F 220.130.142.60 台灣 01/21 10:58
推 : Alpha star 開直播 應開可以賺不少經66F 42.77.76.236 台灣 01/21 11:02
→ : 費
→ : 費
→ : 天網已經誕生了 審判日是幾號?? XD68F 125.227.190.18 台灣 01/21 11:03
推 : 解決人類最快69F 49.216.65.169 台灣 01/21 11:08
推 : 那就是解決人類啊70F 36.231.55.165 台灣 01/21 11:17
推 : AI得到的結論一定是解決人類的啊。。。71F 42.77.105.70 台灣 01/21 11:27
→ : 反觀亞洲多數企業,目標都是錢72F 223.139.152.14 台灣 01/21 11:35
推 : 太強了 只能跪73F 223.141.186.105 台灣 01/21 11:48
--
※ 看板: Gossiping 文章推薦值: 2 目前人氣: 0 累積人氣: 769
作者 nk11208z 的最新發文:
- 18F 14推 1噓
- 因為會看奧術的大部分都是英雄聯盟玩家 甚至至少知道英雄聯盟世界觀的人 那如果連英雄聯盟都不知道的話,看得懂奧術嗎?會不會影響觀看體驗 有沒有完全不懂英雄聯盟,但是奧術看的很開心的人啊 Sent fr …72F 43推 1噓
- 23F 6推 2噓
- 28F 11推 4噓
- 18F 8推
點此顯示更多發文記錄
回列表(←)
分享