※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2018-05-18 14:02:43
看板 Gossiping
作者 標題 [新聞] Google Assistant發展AI中文語音的五大痛
時間 Thu May 17 19:48:36 2018
東森
Google Assistant發展AI中文語音的五大痛點公開、抵台時間敬請期待
記者洪聖壹/美國舊金山報導
關於 Google Assistant 支援繁體中文這方面,《ETtoday新聞雲》在多次媒體場合都曾
發問過相同的問題:「Google Assistant什麼時候支援繁體中文」,這一次,Google Ass
istant 中文研究員宋雲軒向台灣媒體一口氣說明了,究竟對智慧語音學習來說,中文為
什麼堪稱全世界最難懂的語言之一,而對老外來說,Google Assistant 發展繁體中文為
什麼會這麼難、這麼慢。
發問過相同的問題:「Google Assistant什麼時候支援繁體中文」,這一次,Google Ass
istant 中文研究員宋雲軒向台灣媒體一口氣說明了,究竟對智慧語音學習來說,中文為
什麼堪稱全世界最難懂的語言之一,而對老外來說,Google Assistant 發展繁體中文為
什麼會這麼難、這麼慢。
這次訪談過程中,Google Assistant 中文研究員宋雲軒並未回應有關 Google Assistant
的開發團隊詳細狀況,包括最新開發進度、繁體中文開發進度,以及開發團隊人數等等
。
的開發團隊詳細狀況,包括最新開發進度、繁體中文開發進度,以及開發團隊人數等等
。
倒是針對 Google 如何完成「聲音辨識」以及如何回應人類需求,做了一點淺顯易懂的說
明。
Google Assistant 中文研究員宋雲軒表示,人與人之間的交流,最簡單的方式就是用聲
音來講話,或者用文字的形式來傳達。
而 Google 發展人工智慧語音助理的想法,是希望讓語音助理「像人一樣對話」,其中最
重要的任務就是要組織全世界的資訊,讓使用者都能夠簡單的完成任務,為了達成這個任
務,第一個問題就是要處理聲音資訊。第二個問題當然是要讓助理們如何正確、成功達成
用戶的需求。
重要的任務就是要組織全世界的資訊,讓使用者都能夠簡單的完成任務,為了達成這個任
務,第一個問題就是要處理聲音資訊。第二個問題當然是要讓助理們如何正確、成功達成
用戶的需求。
聲音
目前 Google 針對語音、語言處理技術,包括語音辨識跟語音合成,其中在語音辨識方面
,像是 2019 年 Google 推出 Voice Search,讓用戶啟用語音,就能夠成功辨識成文字
,現在透過語音辨識可以直接在虛擬鍵盤上啟用來撰寫文字,可以藉此協助用戶撰寫文章
、email、短訊息等等。
,像是 2019 年 Google 推出 Voice Search,讓用戶啟用語音,就能夠成功辨識成文字
,現在透過語音辨識可以直接在虛擬鍵盤上啟用來撰寫文字,可以藉此協助用戶撰寫文章
、email、短訊息等等。
另外,這幾年最知名的就是 Triggering,這項技術主要是用來區別指令的一個動作,好
比說發展 Google Assistant 所使用的「OK,Google」、「Hey,Google」。
而針對語音合成這方面,碰到的問題是如何將文字轉換成聲音,而今年 I/O 針對 Google
Assistant 額外推出 6 種聲音來豐富其表現,其實背後解決的問題相當多,其中一個就
是如何在龐大的語音資料庫當中,尋找跟這些聲音相同的意思組合在一起,並讓消費者得
到一致性的人工智慧語音體驗,近年來更熱門的趨勢就是深度學習,透過相關模組來合成
聲音。
Assistant 額外推出 6 種聲音來豐富其表現,其實背後解決的問題相當多,其中一個就
是如何在龐大的語音資料庫當中,尋找跟這些聲音相同的意思組合在一起,並讓消費者得
到一致性的人工智慧語音體驗,近年來更熱門的趨勢就是深度學習,透過相關模組來合成
聲音。
語言處理
在語言處理這方面,第一個就是語意分析,大致上的意義就是把一段文字轉成樹狀結構,
從結構當中讓機器判斷什麼是主詞、什麼是動詞,現在的做法是把文字轉成一連串的數字
,用數字來比對聲音的意思,從而提升機器學習的效率。
從結構當中讓機器判斷什麼是主詞、什麼是動詞,現在的做法是把文字轉成一連串的數字
,用數字來比對聲音的意思,從而提升機器學習的效率。
另外,為了讓機器「聽得懂人話」,針對句子當中重要的資訊,則必須要另外開發分析模
組,像是透過 Dependcy Parsing 來分析整個句子包括動詞、受詞、時間、地點的意義,
另外還有透過 Named entrity recognition 分析人名、地名等資訊等等。
組,像是透過 Dependcy Parsing 來分析整個句子包括動詞、受詞、時間、地點的意義,
另外還有透過 Named entrity recognition 分析人名、地名等資訊等等。
自然語言處理
在分析完整個語音、語言之後,接下來一個重要的動作就是自然語言處理。舉例來說:「
台北天氣如何?」在 Google Assistant 來說,它就會判斷出用戶要問的是「台北天氣」
,然後再從 Google 資料庫當中,找到台北的天氣,然後根據這些資訊的解答,轉換成一
個用戶聽得懂的自然語言句子,這在 Google Assistant 裡面,就成了一個重要的技術。
自動翻譯
台北天氣如何?」在 Google Assistant 來說,它就會判斷出用戶要問的是「台北天氣」
,然後再從 Google 資料庫當中,找到台北的天氣,然後根據這些資訊的解答,轉換成一
個用戶聽得懂的自然語言句子,這在 Google Assistant 裡面,就成了一個重要的技術。
自動翻譯
接下來進入這次要探討的環節:「Machine Translation」。當 Google 已經辨識了聲音
、了解這個聲音的內容、然後從 Google 資料庫轉成自然語言,接著碰到的問題就是翻譯
成各種當地的語言,由於這是一個龐大的專案內容,因此 Google 後來發展了一個叫做「
自然語言翻譯」的技術,這包括網頁、行動等不同平台的裝置支援。
、了解這個聲音的內容、然後從 Google 資料庫轉成自然語言,接著碰到的問題就是翻譯
成各種當地的語言,由於這是一個龐大的專案內容,因此 Google 後來發展了一個叫做「
自然語言翻譯」的技術,這包括網頁、行動等不同平台的裝置支援。
如今,透過 Google 搜尋功能,可以進行即時的語音搜尋,透過Google Assistant 除了
關鍵字之外,可以用自然語言跟 Google 交談,透過 Google Home 也可以與智慧裝置對
話。甚至透過即時的翻譯功能,用戶在耳機當中聽到的英文,會自動翻譯成中文。
關鍵字之外,可以用自然語言跟 Google 交談,透過 Google Home 也可以與智慧裝置對
話。甚至透過即時的翻譯功能,用戶在耳機當中聽到的英文,會自動翻譯成中文。
簡而言之,對於所謂的人工智慧語音功能,其背後要面對的技術挑戰相當多,不過 Googl
e 目前已經完成的是可以正確的反饋人類需求,當使用者提供聲音進去時,會進行一個語
音辨識,接著會進行語意分析,在了解是什麼需求的時候,再把這些使用者要的資訊,提
供相對應的自然語言回應。
e 目前已經完成的是可以正確的反饋人類需求,當使用者提供聲音進去時,會進行一個語
音辨識,接著會進行語意分析,在了解是什麼需求的時候,再把這些使用者要的資訊,提
供相對應的自然語言回應。
接下來 Google 面對的最大挑戰,其實是要把這些自然語言回應,以在地的方式,推送到
全球每個地區,最新進度就是今年 Google I/O 宣布的提升到支援 30 種語言、推送到全
球 80 個國家。
全球每個地區,最新進度就是今年 Google I/O 宣布的提升到支援 30 種語言、推送到全
球 80 個國家。
其中,針對繁體中文這方面,宋雲軒提到了下述幾個挑戰:
第一個是「斷詞」
相較於英文,不同字跟詞的意義是可以組合的,然而因為人類大腦在看一個字可以聯想出
很多意義,因此即使是同一個字也會有不同的意思,不過在中文方面,就連「斷句」本身
,也有不同的意思,好比說「我們在野生動物園玩」這句話,對於機器來說,可能是「我
們 在 野生動物園 玩」、也可能是「我們 在野 生動 物 園 玩」,人腦在判斷字句的時
候,很自然地知道哪句話是有意義的,但是對機器來說就是一個挑戰,另外還有逗號句號
的語意分析的問題,因此 Google 必須要針對斷句的語意來分析、判別,藉此了解句子本
身的意義。
很多意義,因此即使是同一個字也會有不同的意思,不過在中文方面,就連「斷句」本身
,也有不同的意思,好比說「我們在野生動物園玩」這句話,對於機器來說,可能是「我
們 在 野生動物園 玩」、也可能是「我們 在野 生動 物 園 玩」,人腦在判斷字句的時
候,很自然地知道哪句話是有意義的,但是對機器來說就是一個挑戰,另外還有逗號句號
的語意分析的問題,因此 Google 必須要針對斷句的語意來分析、判別,藉此了解句子本
身的意義。
第二個是「句子結構」
相較於英文,中文的句子結構其實比較沒那麼嚴謹,像是「蘋果一個多少錢」,「一個蘋
果多少錢」,就英文來說都是"How much is one Apple",但是「他昨天很晚睡」、「他
昨天睡很晚」,直翻英文都是一樣,但是中文的意義不同,人類會自動依照意思翻成不同
的英文,對機器來說就是一個挑戰。
果多少錢」,就英文來說都是"How much is one Apple",但是「他昨天很晚睡」、「他
昨天睡很晚」,直翻英文都是一樣,但是中文的意義不同,人類會自動依照意思翻成不同
的英文,對機器來說就是一個挑戰。
第三個是「認知」
在中文來說,一個字句可以產生很不同的變化,好比說問一個人單身的原因,這個人可能
直接回答「原來喜歡一個人,現在還是喜歡一個人」。在這句子當中的「一個人」背後代
表的意義都不同,但是對於機器判斷來說,這兩個「一個人」都是 One Person,而不會
去聯想到單身,要判別上就有難度。
直接回答「原來喜歡一個人,現在還是喜歡一個人」。在這句子當中的「一個人」背後代
表的意義都不同,但是對於機器判斷來說,這兩個「一個人」都是 One Person,而不會
去聯想到單身,要判別上就有難度。
第四個是「聲調」(Tonal Languages)
不同的聲調,就要做出不同的處理,繁體中文有四個聲調,像是「老師我想問你」跟「老
師我想吻你」,像是「我要水餃」跟「我要睡覺」,都是完全不一樣的意思,但差別僅在
聲調。
師我想吻你」,像是「我要水餃」跟「我要睡覺」,都是完全不一樣的意思,但差別僅在
聲調。
第五個是「方言」(Accent 跟 Dialect)
台灣其實有不同的在地方言,像是台語、客家話、原住民語言,人們因為使用習慣,不同
語言會作切換,好比說「五星級」、「有省錢(台語)」只是發音相同,但是意思卻是完
全不同。
語言會作切換,好比說「五星級」、「有省錢(台語)」只是發音相同,但是意思卻是完
全不同。
宋雲軒表示,為了讓機器更瞭解中文,透過深度學習跟機器學習是近期最經常使用的技術
,傳統的做法是去做句子結構的分析,但這個做法不僅費工耗時、而且容易發生錯誤,現
在透過深度學習的技術,把每個句子轉換成一列串的數字,如果有相同的意思,在 3D 的
圖形就會出現接近的距離,藉此去了解、判斷一個字句的意思。
,傳統的做法是去做句子結構的分析,但這個做法不僅費工耗時、而且容易發生錯誤,現
在透過深度學習的技術,把每個句子轉換成一列串的數字,如果有相同的意思,在 3D 的
圖形就會出現接近的距離,藉此去了解、判斷一個字句的意思。
至於繁體中文的形式也是相同,Google 透過各種不同對話資料比對,來去了解是什麼意
思,並且專為繁體中文寫一個機器學習的模組,比方說讓中文在句子結構的辨識上,使用
中文字句跟英文字句配對,結果出現有明顯的進步,尤其對亞洲語言更有幫助。
思,並且專為繁體中文寫一個機器學習的模組,比方說讓中文在句子結構的辨識上,使用
中文字句跟英文字句配對,結果出現有明顯的進步,尤其對亞洲語言更有幫助。
另外一個是透過深度學習去學習聲音的序號,對比以前把聲音轉換成特徵然後再去辨識的
做法,發現有效提升 15~20%。
宋雲軒指出,Google 透過深度學習來解析句子、透過機器學習來判別一句話的意思,讓
中文語音出現進展,當然最新的Duplex 技術這種實驗性的計畫,在英文得到驗證之後,
未來也可以加入其他語言。
中文語音出現進展,當然最新的Duplex 技術這種實驗性的計畫,在英文得到驗證之後,
未來也可以加入其他語言。
至於繁體中文解決之後,進入中國、香港會不會有問題,答案是肯定的,宋雲軒表示,誠
如上述所解釋,機器在辨識語意、字句切換成自然語言的同時,這中間還要能夠辨識「方
言」,有些方言可能夾雜的是當地口音,而這口音,不要說中國、香港、台灣會有所不同
,就連台灣各地,都有不同的腔調,不過隨著使用數據的提升,其實機器學習可以因為這
些大量的數據,辨識方言。
如上述所解釋,機器在辨識語意、字句切換成自然語言的同時,這中間還要能夠辨識「方
言」,有些方言可能夾雜的是當地口音,而這口音,不要說中國、香港、台灣會有所不同
,就連台灣各地,都有不同的腔調,不過隨著使用數據的提升,其實機器學習可以因為這
些大量的數據,辨識方言。
從這次的訪談過程,可以感受到 Google Assistant 似乎已經克服了世界上最難的語言之
一「繁體中文」,相信在台灣開放中文語音包的日子已經越來越近,這也正代表著整體台
灣物聯網發展將會呈現跳躍式的成長。
一「繁體中文」,相信在台灣開放中文語音包的日子已經越來越近,這也正代表著整體台
灣物聯網發展將會呈現跳躍式的成長。
依照 Google I/O 2017 期間展示的應用(詳見:Google Assistant 人工智慧助理滿周歲
,接下來你隨時都會看到它 )好比說透過聲控的形式在各種不同平台(手機、電視、汽
車、手錶)開啟、關閉家電,預約個人行程,撥打、接聽電話,到了 Google I/O 2018,
語音助理已經演化到更自然的人聲,而且還可以幫忙訂餐、購物,同時支援更多的裝置。
,接下來你隨時都會看到它 )好比說透過聲控的形式在各種不同平台(手機、電視、汽
車、手錶)開啟、關閉家電,預約個人行程,撥打、接聽電話,到了 Google I/O 2018,
語音助理已經演化到更自然的人聲,而且還可以幫忙訂餐、購物,同時支援更多的裝置。
記者實際在 Google Assistant 展區觀看 IoT 產品的控制形式,也有了相當層度的提升
,好比說對於農夫來說,現在透過 Google Assistant 可以控制光照強度,相關指令:像
是「把燈光打開到 60%」。
,好比說對於農夫來說,現在透過 Google Assistant 可以控制光照強度,相關指令:像
是「把燈光打開到 60%」。
你在家裡看電視,也不用再找遙控器上的錄影選項,直接透過語音助理說一聲即可,甚至
要看家裡的信箱裡面有沒有信,也可以用聲控的方式解決,詳見下方影片:
https://youtu.be/oIsOZSGf4F4
這些都說明著全球各地的人類,將享受到全新的智慧語音生態系帶來的更多科技便利,某
種意義來說,台灣在這時候發展物聯網,其實也不算晚,反而需要各界通力合作,迎向新
科技帶來的市場變化。
種意義來說,台灣在這時候發展物聯網,其實也不算晚,反而需要各界通力合作,迎向新
科技帶來的市場變化。
MWC 2017 期間,Google硬體資深副總裁Rick Osterloh 受訪時指出,Google Assistant
是未來整個 Google 產品的核心應用
。(詳見:Google Assistant 開放更多手機使用,並將登上電視與汽車)這一點至今毋
庸置疑,現在關於繁體中文版的進度也終於有了眉目,不過依照 Google 台灣的回應,實
際上 Google Assistant 中文語音在台上線時間仍被保密著,只能說「敬請期待」了。
庸置疑,現在關於繁體中文版的進度也終於有了眉目,不過依照 Google 台灣的回應,實
際上 Google Assistant 中文語音在台上線時間仍被保密著,只能說「敬請期待」了。
https://www.ettoday.net/news/20180514/1169286.htm
Google Assistant發展AI中文語音的五大痛點公開、抵台時間敬請期待 | ETtoday3C家電 | ETtoday新聞雲
關於 Google Assistant 支援繁體中文這方面,《ETtoday新聞雲》在多次媒體場合都曾發問過相同的問題:「Google Assistant什麼時候支援繁體中文」,這一次,Google Assistant 中文研究員宋雲軒向台灣媒體一口氣說明了,究竟對智慧語音學習來說,中文發展為什麼會 ...
關於 Google Assistant 支援繁體中文這方面,《ETtoday新聞雲》在多次媒體場合都曾發問過相同的問題:「Google Assistant什麼時候支援繁體中文」,這一次,Google Assistant 中文研究員宋雲軒向台灣媒體一口氣說明了,究竟對智慧語音學習來說,中文發展為什麼會 ...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.134.139.41
※ 文章代碼(AID): #1Q_MmNTF (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1526557719.A.74F.html
推 : 看來能贏阿法狗的只剩下中文了1F 05/17 19:49
推 : 有點專業2F 05/17 19:50
推 : 洋人整天靠北中文難學,再在證明中文使用者智商較高3F 05/17 19:54
推 : 中文真的很複雜4F 05/17 19:54
推 : 還好中國人不用google,不需要吸收垃圾人的數據,我可受5F 05/17 19:54
→ : 不了我問語音助理問題他回我中國用詞
→ : 不了我問語音助理問題他回我中國用詞
推 : 我來簡單翻譯:你們才一個東南亞化外之地很重要嗎?7F 05/17 19:55
→ : 習慣用英文了 GA的中文超生硬8F 05/17 19:57
推 : 衣跟褲 台語怎麼說啊9F 05/17 19:57
噓 : 方言你個頭10F 05/17 20:11
→ : 還好不是殘體字11F 05/17 20:57
推 : 這篇該轉mobilecomm啊 不過要寫感言 我懶 原Po加油12F 05/17 21:08
→ : 中文太難, 所以電腦不是華人發明13F 05/17 21:29
推 : 清朝後無文化14F 05/17 21:55
推 : 在野武將開了一間動物園...15F 05/17 23:44
--
※ 看板: Gossiping 文章推薦值: 0 目前人氣: 0 累積人氣: 77
回列表(←)
分享