Re: [閒聊] DeepSeek是不是真的很強? - C_Chat板

作者 arrenwu (最是清楚哇她咩)
標題 Re: [閒聊] DeepSeek是不是真的很強?
時間 Sat Feb 1 19:56:52 2025

※ 引述《attacksoil (第三方程式)》之銘言：
: → lanjack: 所以我說我看起來像是openai嗎？人家查出是怎麼偷的也沒 02/01 19:14
: → lanjack: 講，我會通靈是吧？ 02/01 19:14
: → zwxyzxxx: 還有保密文件跟紙糊的一樣,對岸民間的隨便公司都能偷到 02/01 19:14
: 好像真的很多人不知道偷資料是怎麼偷
:
: 稍微說明一下好了如果要偷偷的方法就是花錢用openai 的api 然後用他產生qa pairs
: 來做測試資料集
:
: 看起來跟正常使用差不多真的沒那麼好抓也跟傳統意義上的資安沒有關係
: 推 Peurintesa: 確實畢竟openai都沒版權意識了== 02/01 19:15
: 推 ZMTL: 其實OpenAI研發副總也在推特上稱讚DS的模型蒸餾，所以OpenAI 02/01 19:15
: → ZMTL: 「指責」DS偷我蠻好奇出自哪裡的 02/01 19:15
: → ZMTL: 然後如果模型蒸餾侵權能被搞成，OpenAI比較需要擔心他們被美 02/01 19:16
: → ZMTL: 國一堆出版社告偷資料訓練模型會不會成 02/01 19:16
: 他稱讚的模型蒸餾是指拿R3來蒸餾llama3還有qwen吧
: 至於拿openai 的輸出來重新訓練（蒸餾）是否可以告成功我也不清楚但據我所知官方
: 是禁止的但還是有漏洞可鑽 (shareGPT之類的）

一般人心目中的正常訓練大概是這樣
https://i.imgur.com/Ph3DlNC.png

1. 透過網路爬蟲拿到很多資料組
2. 把資料組送到AI架構進行訓練後得到一個LLM

我看到的「偷資料的指控」則是這樣
https://i.imgur.com/OgkvURx.png

1. DS有使用ChatGPT來生成一些回答
2. DS把ChatGPT生成的回答做成新的訓練資料，用在訓練DS上面

所以這裡所謂的「被偷出來的東西」，是那些ChatGPT的回答

...這個是著作權該保護的東西嗎？
那ChatGPT在當網路爬蟲的時候怎麼就很ok？

我記得當初對於網路爬蟲訓練AI最有利的辯護之一是：
如果訓練的資料庫的訓練素材全部都要付錢，

那以後訓練模型就只有超有錢的集團能做，其他人都吃屎。

這類精神也能用在DS上吧？

--
角卷綿芽給予炭治郎的建議
https://i.imgur.com/0mPdESk.jpg
https://i.imgur.com/Ts4dBjy.jpg

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.45.195.96 (美國)
※ 作者: arrenwu 2025-02-01 19:56:52
※ 文章代碼(AID): #1ddWm7qV (C_Chat)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1738411015.A.D1F.html

※ 同主題文章:

Re: [閒聊] DeepSeek是不是真的很強?

02-01 18:41 attacksoil

Re: [閒聊] DeepSeek是不是真的很強?

02-01 19:56 arrenwu

Re: [閒聊] DeepSeek是不是真的很強?

02-01 20:08 astrayzip

Re: [閒聊] DeepSeek是不是真的很強?

02-02 14:39 howtotell

推 Peurintesa: 我在想openai嘗試用它被告的經驗拿來告別人試試看吧==1F 02/01 19:58

推 lianginptt: 不管啦！阿共就是只會偷，不偷就不是阿共了！2F 02/01 19:59

推 Richun: 照那個偷資料的指控來看，OpenAI可以告一堆模型了。3F 02/01 20:00

→ spfy: 其實這串後來還在推文的都比較認真討論了就算只是想酸也會找一些論點能反串這麼多篇也是辛苦了欸4F 02/01 20:00

推 attacksoil: 我也覺得沒道德瑕疵但openai 的policy 就是禁止有沒有告成功過不知道
https://i.imgur.com/gLWH1Wf.jpeg6F 02/01 20:02

推 SRNOB: 誰管你closeAI 商用當然被告到死人家開源有金身9F 02/01 20:05

→ kuninaka: 其實問題的根源是OpenAI根本不Open
應該改成CloseAI
被人酸剛好
當然酸歸酸，人家policy就寫很清楚10F 02/01 20:05

→ astinky: 開源跟金身一點關係都沒有吧14F 02/01 20:09

→ ZMTL: 公司的policy有沒有法律效力又是另一回事了15F 02/01 20:13

推 jojojen: 其實嚴格來講應該不算偷吧，除非他們是破解OpenAI 的api免費用16F 02/01 20:18

我覺得這不是偷，也不是啥破解。就很一般地使用
※ 編輯: arrenwu (98.45.195.96 美國), 02/01/2025 20:19:26

→ R620SCANIA: 8964占占占 deepseek快抓網路文章訓練喔18F 02/01 20:20

推 jojojen: 覺得重點在如果實際做法是下面那個，應該把叫OpenAI api的錢也算進成本，不然會害大家白高興一場（或白緊張一場）19F 02/01 20:22

推 storyo11413: 這能叫偷的話網路可以關掉了22F 02/01 20:23

推 linfon00: 看你不順眼到時候你做什麼都可以找你麻煩看你順眼的時候就睜隻眼閉隻眼現在是什麼時期大家自己心裡有數23F 02/01 20:42

推 nthank: 我也覺得從道德上來講deepseek沒有問題而且deepseek還開源了現在就是站在道德頂點
順便諷刺OpenAI成立初衷是為了向人類共享技術25F 02/01 21:04

推 randolph80: 使用者規範有寫不能用就是偷，話說回來我要用也會用phi428F 02/01 21:33

作者 arrenwu 的最新發文:

+10 [Holo] Raora打排球 - C_Chat 板

作者: arrenwu 98.45.195.96 (美國) 2025-04-14 12:43:35

10F 10推
+12 [Holo] 角卷綿芽：「妳是我的Master嗎？」 - C_Chat 板

作者: arrenwu 98.45.195.96 (美國) 2025-04-14 10:10:38

19F 13推 1噓
+12 [Holo] 綁辮子的大奶女僕真是好 - C_Chat 板

作者: arrenwu 98.45.195.96 (美國) 2025-04-13 18:17:14

14F 12推
+125 [公告] 鳴人大戰米粉水桶 - C_Chat 板

作者: arrenwu 98.45.195.96 (美國) 2025-04-12 13:49:04

227F 126推 1噓
+31 [蔚藍] 鐵道雙子的可愛腿腿 - C_Chat 板

作者: arrenwu 98.45.195.96 (美國) 2025-04-12 13:24:12

本來對雙子沒太大感覺，但這張雙子的腿腿看起來滿可愛的 @nekoplanetOuO 不知道是不是因為這位繪師 Kairasii4 (@nekoplanetOuO) 很懂得呈現腿+褲襪的關係我覺得他 …

34F 31推

點此顯示更多發文記錄