Re: [問卦] 中研院自己做的大型語言模型怎麼了？ - Gossiping板

作者 sxy67230 (charlesgg)
標題 Re: [問卦] 中研院自己做的大型語言模型怎麼了？
時間 Mon Oct 9 14:34:24 2023

※ 引述《messi5566 (虹粉)》之銘言：
: 中研院最近發布了他們自己開發的LLM
: 說是在處理繁體中文的任務上表現優異
: 可是小妹看了一下跑出來的成果
: https://i.imgur.com/I1zNnIa.png
: https://i.imgur.com/BJIxJY6.png
: 請問繁體中文的任務內容是把簡體翻譯過來嗎
: 詳細資料在這裡
: https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat

阿肥外商碼農阿肥啦！

昨天昨天晚上都在跟獵人直播來不及趕上大型翻車現場，這邊中午看hugging face hub還
可以進去，但現在已經進不去了。

這邊阿肥就直接說，基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較
早期做的自己完全從零訓練的語言模型外，大家都是從meta 的llama魔改的，差別在於預
訓練或微調的數據源跟一些微調小細節而已。

然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟
作者說的訓練數據源來看細節藏在魔鬼裡。

首先，依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練，
理論上原生的meta llama 2的vocabulary size是32000，然後當前對岸開源的簡中llama
2 vocabulary size 是 55296，CKIP開源的那個看起來是65000。

理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的
，所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。

此外，這兩個數據集都是簡中數據集，中研院不知道哪個阿天以為只要opencc 簡轉繁就
可以訓練，完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做
評測，根本是拿明朝的劍斬清朝的官。

當前政府一堆研究單位早就落後中國不止一輪了，人家中國四五年前就砸哈工大幾億人民
幣再做簡中數據集了。

那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始，建立屬
於台灣自己的數據集，結果過了幾年中研院依然是畫大餅的單位，年初阿肥參加過幾個會
議聽到中研院再那邊高喊要要做自己的LLM，阿肥還以為中研院自己秘密建立了一套數據
中心，想必一定砸大錢，結果竟然是拿對岸的數據訓練，也不知道哪個天才研究員覺得只
要簡轉繁AI就會自己講台灣用語。

唉～

這邊註一下：

Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會
的Token，詞會儲存起來對應成ID，AI模型其實真正預測的是這個詞表的ID最後再轉換回
人類有辦法閱讀的中文或英文字。

C-Eval是中國清華北大釋出來的評測集，簡單理解就是AI輸出的文字跟人類的回答有多接
近，他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專
業領域知識。

以上

阿肥自己目前也在幫公司做繁中的語言模型，目前阿肥是盡可能把因為繁中數據有限所以
阿肥都是把模型縮限在小範圍超過分佈就拒絕回答，敢這樣做到那麼通用還不是拿自己的
大量數據集來訓練，我感覺CKIP可能要有大地震了。

呵呵….

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.46.126 (臺灣)
※ 作者: sxy67230 2023-10-09 14:34:24
※ 文章代碼(AID): #1b8vxox8 (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696833266.A.EC8.html

※ 同主題文章:

Re: [問卦] 中研院自己做的大型語言模型怎麼了？

10-09 02:50 medama

Re: [問卦] 中研院自己做的大型語言模型怎麼了？

10-09 13:40 psw

Re: [問卦] 中研院自己做的大型語言模型怎麼了？

10-09 14:34 sxy67230

推 derekhsu: 中研院有說是從Atom-7b微調喔1F 175.182.19.98 台灣 10/09 14:35

Atom-7b就是對岸業餘人士拿Chinese llama調出來的，你怎麼會覺得沒有簡中的數據分佈
？

推 andy00andy: Opencc不是有簡中轉繁中用法的功能嗎？還是那個不夠準確2F 180.217.231.37 台灣 10/09 14:36

OpenCC很多用語還真的就不會轉，像公交車就直接簡轉繁變繁體的公交車，你要額外增加
詞彙他才會轉，但他的做法就是遇到同樣的詞就取代，像港語的的士你直接把他加進去就
全部把你文字裡面的「的士」轉成計程車。。

推 dhccc: 基本上現在要訓練公司內部用的
Llm也有點苦惱中文資源都是對岸用語也是4F 114.38.85.63 台灣 10/09 14:37

推 renna038766: 講的你比杜奕瑾還厲害好了啦6F 1.161.153.103 台灣 10/09 14:37

呵呵
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 14:44:21

推 derekhsu: 台灣就沒模型沒算力沒資料，三無怎麼打7F 175.182.19.98 台灣 10/09 14:38

推 firose: 台灣又浪費了幾年時間了8F 118.168.81.169 台灣 10/09 14:38

推 salamender: 這個id被創世神勾勾再中共同路人那邊9F 218.172.137.200 台灣 10/09 14:39

推 f12sd2e2aa: 所以說三無就放推那養中研院幹嘛關10F 61.231.0.237 台灣 10/09 14:40

→ salamender: ，你準備好被肉搜了沒？11F 218.172.137.200 台灣 10/09 14:40

→ f12sd2e2aa: 一關好了浪費稅金12F 61.231.0.237 台灣 10/09 14:40

推 iopzu3lv0: 不是有姓杜的AI大神？快出來拯救世界13F 122.121.227.138 台灣 10/09 14:41

推 stlinman: 好奇自己餵資料養數據庫，成本很高嗎？14F 101.136.159.171 台灣 10/09 14:41

→ yesonline: 可以拿近8年中央政府新聞稿訓練啊..
怎麼會沒資料.繁體資料可多著呢..15F 220.133.253.85 台灣 10/09 14:42

推 s900527: 綠共塔綠班政府~只會大內宣而已~
專門騙台灣智障人民就夠了17F 61.227.225.131 台灣 10/09 14:43

→ yesonline: 各部會公開資訊也能用. 只是要不要做啦19F 220.133.253.85 台灣 10/09 14:44

→ enthpzd: 講中文好嗎20F 101.136.167.139 台灣 10/09 14:47

推 afking: 這麼閹割的東西就會被靠北上新聞了，怎麼覺得上面會給資源燒錢做數據集笑死21F 1.171.61.199 台灣 10/09 14:48

推 zweihander99: 竟敢說台灣落後對岸，你完惹23F 223.140.139.36 台灣 10/09 14:49

推 Caroney: 國科會那邊也是一堆畫餅廢物「創造具台灣特色的chatGPT」24F 1.169.85.178 台灣 10/09 14:52

推 lonelyQQ: 翻譯台灣應該全面使用支語26F 61.224.55.6 台灣 10/09 14:54

作者 sxy67230 的最新發文:

+3 - Gossiping 板

作者: sxy67230 101.10.216.239 (台灣) 2025-06-20 19:10:59

6F 3推
+7 [問卦] momo的防災包才600塊算高CP嗎？ - Gossiping 板

作者: sxy67230 1.162.109.53 (台灣) 2025-06-17 00:28:38

19F 9推 2噓
+2 - Gossiping 板

作者: sxy67230 1.162.65.90 (台灣) 2025-06-12 20:50:26

7F 2推
+2 Re: [問卦] 朋友：館長沒去中國農村片面資訊 - Gossiping 板

作者: sxy67230 1.162.65.90 (台灣) 2025-06-11 03:50:04

7F 2推
+6 - Gossiping 板

作者: sxy67230 1.162.65.90 (台灣) 2025-06-10 22:07:59

17F 6推

點此顯示更多發文記錄