作者 gaymay5566 (feeling很重要)
標題 [新聞] 中研院AI語言模型出包!廖俊智:提醒其他
時間 Thu Oct 12 13:21:48 2023



1.媒體來源:
NOWnews 今日新聞

2.記者署名:
李琦瑋/台北報導

3.完整新聞標題:
中研院AI語言模型出包!廖俊智:提醒其他計畫勿用中國資料

4.完整新聞內文:
我國中央研究院日前推出類似CHatGPT的繁體中文語言模型CKIP-Llama-2-7b,被踢爆使用
中國建置的資料庫,9日緊急下架,立委今(12)日關切此議題,中研院長廖俊智說明,
主要是年輕研究員求快心切,想利用新技術,將明清人物的生平進行自動化分析,建構語
言模型並非研究本意,另外,中研院將成立生成式AI風險研究小組,提供研究人員相關指
引。


立法院教文會邀請中研院院長廖俊智列席報告業務概況,並備質詢。多名立委關切繁中AI
語言模型出包狀況。

立委萬美玲指出,中研院日前推出繁體中文語言模型,請網友測試,結果回答我國最高領
導人是國家主席習近平,並自述是由復旦大學自然語言處理實驗室和上海人工智能實驗室
共同開發,居住地在上海人工智能實驗室服務器集,非常離譜,質疑這是中研院研發的嗎
?還是研究員大量引用中國資料、甚至抄襲對岸研究成果?


廖俊智回應,主要是一名研究員求快心切,把尚未完全測試完畢的軟體,以開源精神,上
網請大家一同測試,產生了一些有待商榷的結果,研究員已深切反省,中研院也在本次事
件學到正面教訓,體認到繁中語言詞彙非常重要,需要大家一起來做。


萬美玲表示,中研院管理不夠嚴謹,研究員的所有研究出去都是代表中研院,絕非他個人
,結果這套系統3天就下架,簡直是鬧了個笑話。

中研院資訊所長廖弘源表示,主要是年輕研究員執行2個計畫,一個是國科會從去年8月到
今年7月、經費70萬元的計畫,大型預訓練語言模型的建構與校正,另一個則是中研院數
位文化中心給予30萬元研究計畫,有關明清歷史時空調查,因為CHatGPT是去年10月問世
,該研究員拿到計畫後,就想用新技術來趕快進行研究。


廖弘源說明,大型語言模型就像人腦,需要給予許多資料、知識的訓練,必須花很多錢請
很多人去建構資料庫,但台灣主要是靠國家力量做,該研究員僅是為了歷史研究計畫,建
構出資料集,但經費不夠多,便想到對岸與我們同語言,便想直接使用中國與明清歷史相
關的資料,將簡體中文轉成繁體中文,去加以訓練,想要很快展現研究成果,卻沒想到這
些資料庫背後的價值觀也被納入。


廖弘源強調,開發AI語言模型非研究員本意,年輕人也不知道引用中國資料庫的敏感度,
才犯下此種疏忽。

立委張廖萬堅詢問,中研院僅用30萬元去做繁體中文語言模型?日前聲明說會成立「生成
式AI風險小組」因應,何時會成立?院內的擬定審核機制何時提出?

廖俊智說,30萬元計畫原本並非要做生成式AI研究,而是明清歷史研究,是研究員想利用
新技術,求快心切,動用這些經費趕快做測試;「生成式AI風險小組」正在規劃中,會儘
快進行,國際上也正在進行這類控管,因為AI對社會衝擊仍然是未知數。


立委黃國書詢問,中研院未來在推動CHatGPT研究,還會持續使用中國資料集嗎?

廖俊智回應,將配合國科會TAIDE計劃自行開發。

黃國書說,目前除了該出包計劃外,目前與CHatGPT相關的研究計畫還有6個,都還會再進
行嗎?是否也在引用中國資料集?

廖俊智說,目前了解到沒有引用中國資料集,還會再注意、盤點,中研院後續將規劃成立
「生成式AI風險研究小組」,深入了解AI對社會的衝擊,提供研究人員相關指引,但在指
引出來前,上述計畫不會暫停,因為這些計劃除了辭庫外,還有技術方面等很多面向 ,
會再跟幾位研究員提醒勿使用中國資料。


5.完整新聞連結:
https://www.nownews.com/news/6279063
中研院AI語言模型出包!廖俊智:提醒其他計畫勿用中國資料 | 生活焦點 | 要聞 | NOWnews今日新聞
[圖]
我國中央研究院日前推出類似CHatGPT的繁體中文語言模型CKIP-Llama-2-7b,被踢爆使用中國建置的資料庫,9日緊急下架,立委今(12)日關切此議題,中研院長廖俊智說明,... ...

 

6.備註:

還有6個!

我看是沒戲了,懂的都懂,中研院大型語言模型計畫根本是小孩開大車~




--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.97.59 (臺灣)
※ 作者: gaymay5566 2023-10-12 13:21:48
※ 文章代碼(AID): #1b9u9k_Y (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1697088110.A.FE2.html
PanaS0Nic: 沒事兒1F 211.22.123.18 台灣 10/12 13:22
elec1141: 講幹話2F 114.136.208.77 台灣 10/12 13:22
Cuteration14: 又是屁話3F 1.200.56.172 台灣 10/12 13:22
LawLawDer: 六個XD4F 223.137.106.115 台灣 10/12 13:22
KKevin5566: 這時候綠綠就又不會出來譴責了5F 104.132.253.104 日本 10/12 13:23
adk147852: 年輕研究員聽好啦6F 36.238.42.142 台灣 10/12 13:23
BoyceChu: 塔綠班哥布林呢?7F 1.200.0.108 台灣 10/12 13:24
Lenney33: 小粉綠=小粉紅8F 220.136.217.249 台灣 10/12 13:24
dick929: 廖廖廖廖廖廖廖俊9F 101.12.53.230 台灣 10/12 13:24
holyhelm: 喔  恭喜你已知用火10F 36.236.253.86 台灣 10/12 13:24
cat5672: 有沒有問一下台灣地區領導人是誰11F 101.12.112.9 台灣 10/12 13:24
STi2011: 有一個為了但凹到下台的 我看你多會凹12F 59.125.79.58 台灣 10/12 13:24
F93935: 給30萬 連顯卡錢都不夠還玩什麼ai13F 101.12.45.124 台灣 10/12 13:24
ymib: 就是剽竊中國AI14F 180.217.248.214 台灣 10/12 13:25
rhox: ok 看到關鍵字了,馬上申請30E經費給中研院15F 220.129.84.205 台灣 10/12 13:25
yeustream: 沒錢玩個X16F 61.230.148.150 台灣 10/12 13:25
FA88124: 解職沒?17F 27.51.64.240 台灣 10/12 13:26
yinaser: 直接說計畫死去好了,給你3000萬也玩不什麼18F 42.77.35.226 台灣 10/12 13:26
dayend: 高智商白癡大概就是這種行為模式吧^^20F 111.252.215.173 台灣 10/12 13:28
STi2011: https://imgur.com/ybgrIa1.jpg 圖借你年輕人不懂敏感度  他只是個孩子啊21F 59.125.79.58 台灣 10/12 13:28
[圖]
DarkIllusion: 中科研究員的年紀早就已經不年輕了23F 123.51.157.25 台灣 10/12 13:31
stlinman: 用中國資料庫去建構與校正語言模型?24F 150.116.129.113 台灣 10/12 13:32
milk250: 好了啦  閉嘴都比說這些好25F 1.164.125.135 台灣 10/12 13:32
archon: 啊啊啊,你怎麼講出來了...26F 125.227.31.1 台灣 10/12 13:32
jil: 就想找現成的 廢話那麼多27F 61.223.129.203 台灣 10/12 13:34
riap0526: 直接推給年輕人 神操作?28F 211.72.195.139 台灣 10/12 13:34
BIGETC: 抄一下複製一下借用一下 稅金真的發大財29F 223.140.103.108 台灣 10/12 13:34
OforU:  https://i.imgur.com/Ms5hkKf.jpg30F 114.136.137.173 台灣 10/12 13:34
[圖]
stlinman: Nvidia H100 售價3萬美金。 70萬+30萬31F 150.116.129.113 台灣 10/12 13:34
s655131: 喪事喜辦最會32F 42.72.224.249 台灣 10/12 13:34
stlinman: 購買一組嗎?33F 150.116.129.113 台灣 10/12 13:34
neoa01 
neoa01: https://i.imgur.com/hq5j01f.jpg34F 223.141.47.155 台灣 10/12 13:34
STi2011: 看來研究員也還好嘛 比網友還笨的樣子35F 59.125.79.58 台灣 10/12 13:36
sagarain: 研究員是能多年輕 副研究員一堆到老36F 118.169.228.232 台灣 10/12 13:42
jamespon1: 三十萬37F 223.139.130.156 台灣 10/12 13:45
linfon00: 外包廉價中國工程師詐領經費吧38F 42.73.26.148 台灣 10/12 13:48
s762ok: C話一堆39F 98.237.136.175 美國 10/12 14:02
isu0911: 錢這麽少能幹嘛…40F 122.146.70.20 台灣 10/12 14:05
chuusan: 成立一個資料庫辦公室再拿個幾E41F 42.72.130.241 台灣 10/12 14:15
bluetom7: 綠共滅台滅種計畫大成功,臥底安插40年,終於把台灣掏空搞爛。綠共操控媒體,造成台灣國力內耗衰弱,社會經濟司法混亂失能,導向台灣滅亡。42F 180.217.131.84 台灣 10/12 14:19
satosi011: 經費3億 研究員拿30+70萬弄語言模型?46F 36.225.112.39 台灣 10/12 14:33

--
作者 gaymay5566 的最新發文:
點此顯示更多發文記錄