作者 unlimit999 (黑先生)
標題 Re: [閒聊] 中國有配音員的聲音被偷走了
時間 Sun Jun  2 14:31:57 2024


※ 引述《Mayfly (Baccano)》之銘言:
: 老實說我最近也偶爾會在B站上聽一些AI代唱
: 就是讓ACG人物的AI語音唱某些樂曲,比方說草神唱大悲咒什麼的
: 對岸最近有個梗,什麼薩菲羅斯男人中的男人
: 就是用AI編曲演唱歌頌薩菲羅斯什麼的
: 還有個遊戲直播主,他之前發了個影片鑑賞那些用他的聲音為免洗遊戲打的廣告
: 只能說,當初大概也很少人預測到,最先被AI打成手工業者的,竟然是創意產業和流行設計
: 或許也是側面表現了現代人類的精神生活有多空泛吧……

準確來說是替代了部分創意、流行的生產步驟,AI只是降低製造的門檻。

不然像...
薩菲羅斯男人中的男人、歐金金是奶茶...

不管誰來都不會覺得這玩意是AI想出來的

=============================================================

配音領域的話,對岸常用的3個開源項目
Bert-VITS2、GPT-SoVITS、Fish-speech

至於唱歌方面的我沒太研究,不過據我所知唱歌AI目前還是比較粗糙的


Bert-VITS2
去年就有了,開源版預訓練模型無法用來推理
必須使用者自己收集素材,然後自己煉丹。


GPT-SoVITS
還是要自己去煉丹,原始項目沒法直接推理,
不過他的LLM參數量太小,常常出現幻覺。

Fish-speech
原理跟第上面的差不多,
不過重製了聲碼器,然後把LLM的參數量堆到1B,
初步解決比較常見的多音字發音問題。

比較雞賊的是,這玩意有做小樣本推理功能,
只要提供一個參考音頻,就能還原個7788,
不過要達到最佳效果還是要自己重煉聲碼器。




我這幾個月都拿這些聽書,體驗下來....
目前在自己有煉丹能力的情況下,音色跟韻律可以做到非常出色的還原。

但配音還需要情感演繹之類的功能,這點目前的TTS技術,
不管是商用項目還是開源項目,都遠遠達不到預期。

想要達到感情也很匹配的程度,需要大量人工進行微調,
如果是這樣的話,成本還是請真人配音比較便宜。

目前這技術,可以拿來整活、做二創、自己練著玩之外,

現階段要拿來直接給遊戲、動畫、配音,目前差距還很大。
除非你用人工干預一句一句精調。

記得yt上有個日本搞得很鬧的AI 安倍就是用BV2生成的

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.71.165.25 (臺灣)
※ 作者: unlimit999 2024-06-02 14:31:57
※ 文章代碼(AID): #1cN17VtD (C_Chat)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1717309919.A.DCD.html
※ 同主題文章:
Re: [閒聊] 中國有配音員的聲音被偷走了
06-02 14:31 unlimit999
pufferfish72: 我覺得用AI做音樂比做配音簡單多ㄌ
畢竟音樂本身的和弦都很簡單 甚至大部分都是用
機器在微調ㄉ
所以AI隨便都可以出一首妳聽不出差別的音樂
但聲優很難 去聽YT就知道AI和真人聲還是差太多ㄌ1F 06/02 14:36

語音的話,目前能做到長音頻30秒幾乎聽不出與真人的區別,
但聽個3~5分鐘就能明顯察覺問題了,情感表達上現在還很糙。

KyoukaiShiki: 唱歌的話Suno AI吧6F 06/02 14:44
nacoojohn: 邦邦也把香澄跟友希那的聲音拿來做AI唱歌了7F 06/02 14:47
※ 編輯: unlimit999 (42.71.165.25 臺灣), 06/02/2024 14:49:20
--
作者 unlimit999 的最新發文:
點此顯示更多發文記錄