※ 本文為 Knuckles 轉寄自 ptt.cc 更新時間: 2023-10-13 23:17:14
看板 Soft_Job
作者 標題 Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套
時間 Mon Oct 9 14:53:30 2023
※ 引述《gaymay5566 (feeling很重要)》之銘言:
: 中央研究院詞庫小組(CKIP)
: 中研院資訊所、語言所於民國75年合作成立
: 前天釋出可以商用的繁中大型語言模型(LLM)
: CKIP-Llama-2-7b
: 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎
: 再補強繁體中文的處理能力
: 參數量達70億
: 模型可應用於各種領域
: 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等
: 但實際測試後
: https://i.imgur.com/phwhfcl.png
: https://i.imgur.com/O1P6HpS.png
: https://i.imgur.com/cMnCbI8.png
: 測試網頁:https://reurl.cc/q0rbqn
: 拿這種東西出來交作業 太扯了吧
: 根本就是簡體直接轉繁體而已!
: 中研院資訊所耶 拿這種軟體來騙
: 更新:被發現後 悄悄地撤下來了
: https://i.imgur.com/sy7rLgt.png
小弟待的公司,非學術單位,
可能是台灣硬體計算資源稍微豐富的公司。
公司投入在買GPU 應該近億了。
自己也研究了幾個月 fine-tune 方法。
不過,還是沒足夠能力與資源訓練正常的LLM。
主要卡在三方面:
1.資料面,會卡什麼?:
並不是像版友們說的:繁體中文語料過少,
這根本不是一開始會遇到的問題。
光是 Common Crawl 真的有人去看繁體中文的量有多大嗎? 有人願意像Meta一樣去處理清洗資料後再去訓練嗎?
光是處理資料,所需的硬體採購,
大概要到一億新台幣來建置機房。
這還是稍微能用而已。
繁體中文資料難蒐集根本是假議題。
你的公司,沒錢買設備,沒資源
不願意讓你投幾億成本處理清洗資料才是事實。
我只看過中研院與聯發科之前的Bloom-zh-3B論文。光是他們這點就卡住了。
資料只能用玩具級的做法來做。
到處砍,到處刪CC的資料。
而且該論文也說了,自己只是 fine-tune別人的Bloomz 模型,不是從新訓練。
嗯,光是模型大小,1B1或3B的,聯發科語中研院就"沒有能力"重新訓練了好嗎。
看了 只fine-tune LLaMA-2-7B這種等級的模型。
大概也很容易說明了,硬體經費根本不足。
這種經費會卡到的不是繁體語料不足,
而是根本沒機器或資源給你清洗處理資料。
2. 訓練模型會先卡什麼?
目前,台灣任何一個單位,根本沒能力研發LLM模型架構。台智雲,中研院,或其他任何單位。
都是基於LLaMA2上去 fine-tune的。
所以模型都是 7B 13B 70B大小。
而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已,
完全沒有任何技術門檻。
(只有誰願意採購幾千萬硬體的門檻而已)
所有不拿大量通用資料,只 fine-tune少量資料
都有一個問題:
你可以over-fitting去嵌入所有你想要的模型輸出文字,但災難性遺忘所有通用知識。
同樣的,你可以控制模型永遠只輸出英文與繁體,只輸出台灣知識。但模型的通用性,絕對是差到不能用的。
所以台智雲,或中科院這種等級訓練出來的模型,通用型有待商確,可能問一些很基本的常識就掛了。
這不會先卡到中研院CKIP技術太差,
(我是非常敬佩CKIP這幾年的努力的)
會先卡到的是:
是否願意投個幾十億建立基礎訓練平台而已。
如果沒看到一個像樣的訓練平台,千張 A100這種等級的。
短視到只願意fine-tune
輸出少數大家想看的輸出,
當然永遠災難性遺忘通用能力。
永遠沒有一個可商用,可通用的機會。
當然也可以用雲計算租GPU,但是費用也不便宜,沒丟個幾億都是不夠的。
國家要給中研院幾個億去玩LLM,
會先被輿論幹翻吧。
3.人才面
台灣並沒有很多人在真正訓練/微調LLM。
你去看各種AI研討會,或所謂都LLM專家,幾乎都是在吹自己的prompt如何試錯。
在吹自己怎麼用OpenAI的API。
其實人才的建立,最先卡的也不是沒錢。
中國人,一堆只有幾萬元台幣的消費級顯卡的人,都在fine-tune LLM了,其實買個6萬台幣的電競筆電也能做很多事情了。但台灣就是沒這種風氣。
在台灣各種專業研討會,做prompt trick的人,比傻傻的在處理資料,training/fine-tune模型的人,紅很多。人才與風氣走偏了。
能用 prompt 就能獲得大量經費,成為專家,誰願意研發training/fine-tune技術。
結論:
小弟是很看好中研院的能力,可惜整個台灣AI風氣,與商業玩法,技術再強的人,大概都難以發揮。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.54.199 (臺灣)
※ 作者: DrTech 2023-10-09 14:53:30
※ 文章代碼(AID): #1b8wDiol (Soft_Job)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1696834412.A.CAF.html
推 : 數發部那兩百多億真的不知道在衝三小用的1F 10/09 14:59
推 : 都可以花十幾億弄個不能用的球場了 我們國家很有錢的2F 10/09 15:01
→ : 黨要不要而已
→ : 黨要不要而已
推 : 推4F 10/09 15:11
→ : 不同預算直接比跟算營養午餐那套有啥差別,問題在5F 10/09 15:14
→ : 好多公司上層都在吹自家有微調大模型的能力,結果
→ : 給的機器少得可憐,再怎麼厲害的人也無能為力
推 : 如果能理解"給多少資源做出來就是多少能力"還好,
→ : 怕的是你做出來老闆叫你跟OpenAI的大模型比
→ : 好多公司上層都在吹自家有微調大模型的能力,結果
→ : 給的機器少得可憐,再怎麼厲害的人也無能為力
推 : 如果能理解"給多少資源做出來就是多少能力"還好,
→ : 怕的是你做出來老闆叫你跟OpenAI的大模型比
推 : 推~10F 10/09 15:36
推 : 很多公司房營收獲利來源就跟鬼島政府一樣短視近利,11F 10/09 15:40
→ : 僅靠擁護某些人的利益卻想藉由搶/死他人來獲益,對這
→ : 類人而言能做的僅次於一樣的無能及可悲。這年頭各種
→ : 事情及衝突其實已經跟所有人告誡,從各面向觀之,只
→ : 想賺自己的那些終究會葬送在自己的手裡,並且把整體
→ : 環境弄成一攤死水
→ : 出張嘴短視近利靠混及騙來的不代表你多厲害,反而還
→ : 會有更多產業內外的人們,因你(這類人)在位而被害
→ : @抱歉SE鍵盤太小打錯字是 公司方*
→ : 那還不如不要無腦就跟著做下去更好
→ : 僅靠擁護某些人的利益卻想藉由搶/死他人來獲益,對這
→ : 類人而言能做的僅次於一樣的無能及可悲。這年頭各種
→ : 事情及衝突其實已經跟所有人告誡,從各面向觀之,只
→ : 想賺自己的那些終究會葬送在自己的手裡,並且把整體
→ : 環境弄成一攤死水
→ : 出張嘴短視近利靠混及騙來的不代表你多厲害,反而還
→ : 會有更多產業內外的人們,因你(這類人)在位而被害
→ : @抱歉SE鍵盤太小打錯字是 公司方*
→ : 那還不如不要無腦就跟著做下去更好
推 : 台灣公司一堆稱有ai單位,也沒做出什麼東西嗎21F 10/09 16:00
推 : 我原醫藥產業各式台外商政商及其各式職司就更不用提22F 10/09 16:02
→ : ,那種情況比科技業能有準則判定立馬有成效數據孰優
→ : 孰劣更明顯,而且動輒國際及國家資源獨寡占上兆耗費
→ : 而言資源偷拐搶騙比科技業跟軟工還誇張的可怕,目前
→ : 我原產業得志又得利的小人們佔多數,拿他們沒辦法而
→ : 且他們各式所為還不會被評判攻擊的這麼明顯,反過來
→ : 其他人還會被這些人評判,錯誤方變成對的那一方,對
→ : 的變成錯誤方還要被要求檢討自己來證明這些人沒問題
→ : ,更莫名奇妙,中研院現在那個生醫園區及我原產業那
→ : 些人們,以後挖台灣的錢更是會用比這還誇張的莫名奇
→ : 妙手腕,這模型看起來跟我原產業的人們相比真的小太
→ : 多
→ : ,那種情況比科技業能有準則判定立馬有成效數據孰優
→ : 孰劣更明顯,而且動輒國際及國家資源獨寡占上兆耗費
→ : 而言資源偷拐搶騙比科技業跟軟工還誇張的可怕,目前
→ : 我原產業得志又得利的小人們佔多數,拿他們沒辦法而
→ : 且他們各式所為還不會被評判攻擊的這麼明顯,反過來
→ : 其他人還會被這些人評判,錯誤方變成對的那一方,對
→ : 的變成錯誤方還要被要求檢討自己來證明這些人沒問題
→ : ,更莫名奇妙,中研院現在那個生醫園區及我原產業那
→ : 些人們,以後挖台灣的錢更是會用比這還誇張的莫名奇
→ : 妙手腕,這模型看起來跟我原產業的人們相比真的小太
→ : 多
→ : 台灣永遠只有第一波玩的到,後面要玩資本的永遠跟34F 10/09 16:06
→ : 不上
→ : 不上
推 : 資本跟國力蠻有關的,如果台灣自己又再內鬥內耗,這36F 10/09 16:20
→ : 塊輸別人(尤其是對比歐美而言,他們的國力本來就很
→ : 夠用)真的是正常
→ : 塊輸別人(尤其是對比歐美而言,他們的國力本來就很
→ : 夠用)真的是正常
推 :39F 10/09 16:49
推 : 結論是人才很好 但沒錢?你知道數位發展部的年度預算有多40F 10/09 18:20
→ : 少嗎?我國政府有的是錢 只是不是拿來投資用的而已
→ : LLM也算是數位發展部的範疇吧?
→ : 少嗎?我國政府有的是錢 只是不是拿來投資用的而已
→ : LLM也算是數位發展部的範疇吧?
推 : 協尋數發部…43F 10/09 19:15
推 :44F 10/09 20:14
推 : 只覺得很悲哀45F 10/09 20:33
噓 : 倒果為因了 就是卡住 所以只能往prompt發展46F 10/09 20:43
推 : 推47F 10/09 20:44
噓 : 消費級顯卡fine tune LLM? 你當LLM多小...48F 10/09 20:46
推 : 現在平民老百姓要學的是如何應用AI..49F 10/09 21:02
推 : 資料處理費時燒錢 老闆不喜歡 嘻嘻50F 10/09 21:12
→ : 有數發部這種頂級單位幹嘛搞研發51F 10/09 21:30
推 : 1080Ti就可以fine tune Bert啊,樓上在噓啥52F 10/09 21:39
→ : CKIP真的值得敬佩
→ : 希望那些酸言酸語不要影響到研發人員的心情
→ : CKIP真的值得敬佩
→ : 希望那些酸言酸語不要影響到研發人員的心情
推 : BERT 稱不上是 LLM 吧55F 10/09 21:50
推 : 消費級顯卡可以搞 LoRA 啊
推 : 消費級顯卡可以搞 LoRA 啊
推 : 趨勢很明顯,學怎麼應用AI就好,以後AI底層架構會57F 10/09 21:56
→ : 跟程式語言底層一樣都是米國的知識產權。
→ : 跟程式語言底層一樣都是米國的知識產權。
Re: [亞洲] 日本法務轉職心得分享 - 看板Oversea_Job - PTT網頁版 原文恕刪. 此篇回應主要是. 1. 恭喜樓主轉職成功. 2. 奉勸樓主別把時間浪費在回luckyalbert. 3. 打臉luckyalbert. 抱歉啊albert剛好在等烘衣機 無聊所以來打你的臉了. 1. 首先恭喜ayutaksko. 我也好想在日本工作 可是真的語文天份差. 大學選修過日文也 ...
推 : 有200多億可以租啊 不想而已62F 10/09 22:52
推 : 沒人願意清資料政府不願意帶頭投資硬體 乖乖用對岸開源的63F 10/09 22:55
→ : 的別幻想自建LLM了啦
→ : 的別幻想自建LLM了啦
推 : 台智雲那段我想提醒一下,一開始他們是用 BLOOM 17665F 10/09 22:58
→ : B 下去訓練,當時(推測是二月開始訓練) QLoRA 即
→ : 使還沒出來。雖然 BLOOM 架構與 Llama 架構差滿多的
→ : ,但我想 AFS 訓練千億級參數量模型的能力應該還是
→ : 有的。只是說台智雲這個系列的模型是閉源的,所以也
→ : 不會被大家拿來檢視與挑戰就是了。
→ : B 下去訓練,當時(推測是二月開始訓練) QLoRA 即
→ : 使還沒出來。雖然 BLOOM 架構與 Llama 架構差滿多的
→ : ,但我想 AFS 訓練千億級參數量模型的能力應該還是
→ : 有的。只是說台智雲這個系列的模型是閉源的,所以也
→ : 不會被大家拿來檢視與挑戰就是了。
→ : 不用跟某人吵吧沒用 還有快去就醫 他在ptt各板被桶光71F 10/09 23:04
→ : 不知道現實會做出甚麼XD
→ : 不知道現實會做出甚麼XD
→ : 台智雲前陣子發新聞稿,最新模型是用LLaMA 2+Qlora訓練的73F 10/09 23:44
→ : 。
→ : 另外,有人提到消費級顯卡無法fine-tune LLM,可以說為什
→ : 麼嗎?。實際上 4090,筆電16G,桌電24G,真的夠fine-tune
→ : 中研院這種等級(7B)的LLM 阿。
→ : 消費級顯卡,硬是要訓練成大家期待的輸出,或政府愛看的輸
→ : 出也沒什麼問題,只是通用性絕對不高而已。
→ : 。
→ : 另外,有人提到消費級顯卡無法fine-tune LLM,可以說為什
→ : 麼嗎?。實際上 4090,筆電16G,桌電24G,真的夠fine-tune
→ : 中研院這種等級(7B)的LLM 阿。
→ : 消費級顯卡,硬是要訓練成大家期待的輸出,或政府愛看的輸
→ : 出也沒什麼問題,只是通用性絕對不高而已。
推 : 那個應該是指說他們推出了 Llama2 繁中版,「另外」80F 10/10 00:01
→ : 還提供了 PEFT 訓練方法可供選擇,但是並沒有明確指
→ : 出這些繁中版的模型是使用 LoRA 訓練的。但我有朋友
→ : 用過 AFS Demo,當時 FFM 176B 也是 Full Fine-tuni
→ : ng,感覺沒什麼道理參數量少了反而倒退嚕。不過他們
→ : 是主打算力平台,模型的提供並不是真正的重點,只是
→ : 讓客戶有比較多選擇而已。
→ : 新聞稿參考
→ : https://tinyurl.com/2wzxxyx9
→ : 還提供了 PEFT 訓練方法可供選擇,但是並沒有明確指
→ : 出這些繁中版的模型是使用 LoRA 訓練的。但我有朋友
→ : 用過 AFS Demo,當時 FFM 176B 也是 Full Fine-tuni
→ : ng,感覺沒什麼道理參數量少了反而倒退嚕。不過他們
→ : 是主打算力平台,模型的提供並不是真正的重點,只是
→ : 讓客戶有比較多選擇而已。
→ : 新聞稿參考
→ : https://tinyurl.com/2wzxxyx9
終於等到繁中版!台智雲再掀生成式AI熱潮 - TWSC 台智雲
台智雲FFM-Llama 2以最新大語言模型Meta Llama 2為基礎,藉由AIHPC超級電腦算力、高效平行運算環境與大語言模型切割技術,訓練大量台灣在地語料,大幅提升FFM-Llama 2繁體中文能力;全系列模型可進行微調、部署與推論,企業用戶亦能以自訂系統提示詞,讓AI模型思考更在地、更精準 ...
![[圖]](https://i4.disp.cc/t/0/tws.twcc.ai_wp-contec9df37032a61e6df50539efd2d4d9d2a.jpg)
推 : 天才IT大臣除了租辦公室到底都做惹啥ㄚ89F 10/10 00:06
推 : 房價那麼貴公司是怎麼買機房放機器90F 10/10 00:19
推 : LoRA基本到連我這外行人都會xD91F 10/10 00:47
→ : 我在各板遇到的各式ID中有幾個神經病真的不知道誰家
→ : 養著的長期發瘋抹黑跟騷誹謗造謠貼標說謊人身攻擊站
→ : 方放任這些神經病在發瘋,真不知道這些小人們到底都
→ : 是誰家給錢養著的瘋子有病的貼別人有病,沒病的路人
→ : 正常平台國家學術資源使用者你我被洗成有病,噁爛到
→ : 炸
→ : 我在各板遇到的各式ID中有幾個神經病真的不知道誰家
→ : 養著的長期發瘋抹黑跟騷誹謗造謠貼標說謊人身攻擊站
→ : 方放任這些神經病在發瘋,真不知道這些小人們到底都
→ : 是誰家給錢養著的瘋子有病的貼別人有病,沒病的路人
→ : 正常平台國家學術資源使用者你我被洗成有病,噁爛到
→ : 炸
→ : 其實在中研院說要自己弄的時候,大家就在說不可能了98F 10/10 05:24
→ : 現在只是醜婦見家翁而已,沒有多少人真的期待那一點預算就作
→ : 出來一套跟別人百倍、千倍預算相比的吧?
→ : 現在只是醜婦見家翁而已,沒有多少人真的期待那一點預算就作
→ : 出來一套跟別人百倍、千倍預算相比的吧?
推 : 天才IT 大臣加上幾百億的預算你跟我說沒有錢沒有人101F 10/10 08:43
推 : 推102F 10/10 09:31
推 : 推103F 10/10 09:39
推 : 問題是真投了幾百億 幾千億 也賺不了錢104F 10/10 09:48
→ : 台灣還是專心做GPU硬體生產就好
→ : 與其把資源放在搞沒錢途的AI 還不如把錢投注在硬體架構
→ : 要說聯發科哪天能分杯羹Nvidia的市場 還比較能想像
→ : 台灣還是專心做GPU硬體生產就好
→ : 與其把資源放在搞沒錢途的AI 還不如把錢投注在硬體架構
→ : 要說聯發科哪天能分杯羹Nvidia的市場 還比較能想像
推 : 把數發的200億移過來用不就好了?200億應該夠了吧108F 10/10 10:30
推 : 這才是台灣的價值109F 10/10 11:02
→ : 黨不喜歡有人說實話110F 10/10 11:05
推 : 先裝潢再說111F 10/10 11:08
推 : 有錢但是不分你啊112F 10/10 12:06
推 : 推說明 AI基礎建設就是砸錢 政府有沒有決心去推很重要113F 10/10 12:11
推 : 現在的政府不用想了吧,國家從上到下都在短視近利114F 10/10 12:32
→ : 不用幻想文組法律系當頭的政府有啥撈快錢之外的目標惹115F 10/10 16:24
→ : 啦 經濟部還想補助中小ic設計商先進製成總經費8億 是
→ : 要笑死人 老人只能玩蓋蚊子館撈錢啦
→ : 啦 經濟部還想補助中小ic設計商先進製成總經費8億 是
→ : 要笑死人 老人只能玩蓋蚊子館撈錢啦
推 : 推分析,另真的不管錢投在哪裡就是會有帳號冒出來罵翻,118F 10/10 16:48
→ : 看推文就知道
→ : 看推文就知道
推 : 每次提到「政府」就有人來亂酸...好好討論不行嗎120F 10/10 19:03
→ : 好好面對現實不行嗎 為什麼會有人講政府又不是無中生121F 10/10 19:20
→ : 有
→ : 有
推 : clean data需要億級硬體設備可以分享一下原因嗎123F 10/10 21:12
→ : 是後處理的資料存儲問題嗎
→ : 是後處理的資料存儲問題嗎
推 : 在公司內很難說服主管像中國那樣做資料集和開源模型125F 10/10 22:13
→ : ,然後別人一推出新模型就開始瞎緊張,完全沒有長期
→ : 規劃的能力
→ : ,然後別人一推出新模型就開始瞎緊張,完全沒有長期
→ : 規劃的能力
推 : 對岸有國產搜尋引擎或問答平台 比較容易累積資料128F 10/10 23:27
→ : 台灣的玩法應該是不會重頭弄 只能外包請人做資料審查
→ : 台灣的玩法應該是不會重頭弄 只能外包請人做資料審查
推 : 蛋塔一樣,外面紅啥,政府就跟著喊,然後補助一堆學院,130F 10/11 06:26
→ : 大量產出紙上作業的人
→ : 大量產出紙上作業的人
→ : 看xx部 台灣不缺你說的這點小錢 用在哪而已132F 10/11 06:40
推 : 這很台灣133F 10/11 07:45
推 : 推分析 鬼島有鬼島的玩法134F 10/11 10:21
推 : 200億拿去點麵線、裝潢、出國考察也不願意投資未來最重要135F 10/11 10:31
→ : 的AI,這就是鬼島玩法
→ : 的AI,這就是鬼島玩法
推 : 不同意樓上。原Po第二點就有提到137F 10/11 13:16
→ : 是否跳進這個燒錢的軍備競賽而排擠其他項目,才是真的
→ : 命題
→ : 是否跳進這個燒錢的軍備競賽而排擠其他項目,才是真的
→ : 命題
推 : 所以有人說得出兩百多億具體端了什麼成果嗎140F 10/11 13:41
→ : 真的很難想像 台灣本土LLM 能賺到甚麼錢141F 10/11 14:36
→ : 對岸不會用 歐美日也不會想用 只能島內自己用
→ : 這樣講起來 200億拿去點麵線 至少能讓肚子吃飽 是還比較
→ : 實在
→ : 對岸不會用 歐美日也不會想用 只能島內自己用
→ : 這樣講起來 200億拿去點麵線 至少能讓肚子吃飽 是還比較
→ : 實在
推 : 實在個雕,點麵線已經有現成的外送app,你做一樣定位的東145F 10/11 15:45
→ : 西幹嘛
→ : 西幹嘛
推 : 點外送不是就有現成app了?147F 10/11 16:21
推 : 就是因為有現成的他們才想做啊XD148F 10/12 10:03
推 : 推推 之前碩班做相關研究 後來因硬體資源不足就乖乖去業界149F 10/12 12:39
→ : 學術單位做研究本來就是針對某環節進行優化改善而已
→ : 學術單位做研究本來就是針對某環節進行優化改善而已
--
※ 看板: Soft_Job 文章推薦值: 0 目前人氣: 0 累積人氣: 201
作者 DrTech 的最新發文:
- 連結或內文,完全是錯的。 根本是腦殘媒體在亂寫。與論文事實不符。 先說論文結論: 模型表現: 經過不斷的做實驗試錯, 終於從59000筆訓練資料中, 找到一組1000筆AI訓練資料, 可以在" …45F 20推 1噓
- 非常認同 上一篇shrines的心態與觀點。 這兩年,我也常常懷疑自己是否被霸凌了。 一直觀察自我的心態變化就是: 1. 認真工作,超出常規以外的認真。 2. 持續被主管否定。 3. 懷疑主管有問題 …298F 153推 4噓
- 我用實際行動, 來表達最近台達電員工自殺的事件的不滿。 我的實際行動就是: 永久將台達電,列入我的黑名單。 個人永遠不去面試與工作。 還在公司內的也該思考一下,是否有更好的選擇 公司有人跳樓,或有爭 …501F 268推 26噓
- 137F 34推 29噓
點此顯示更多發文記錄
→
guest
回列表(←)
分享