Re: [閒聊] DeepSeek是不是真的很強? - ACG板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文轉寄自 ptt.cc 更新時間: 2025-02-01 22:03:18

看板 C_Chat

作者 attacksoil (第三方程式)
標題 Re: [閒聊] DeepSeek是不是真的很強?
時間 Sat Feb 1 18:41:04 2025

這串一堆外行

首先 DeepSeek模型特點是
1. 訓練成本低
2. 推理成本低

先說訓練成本低

論文中說的訓練成本低是用最後訓練出這個模型所花的GPU小時乘上費用小時得到的

實際有實作經驗的人就知道你要嘗試一個新訓練方式甚至要提高訓練效率都嘛還要做一
堆實驗實際上花的成本遠高於此

DeepSeek真正佛心的地方是把他最後訓練所用的方法都寫在論文上了後人可以少走彎路
但從現在AI進展的速度這個訓練配方肯定也不是會被一直使用的東西技術就是這樣一直
進步

結果被一堆媒體用政治的語言解釋作者本人肯定也莫名奇妙

然後再說上述的“佛心” 也就是發表了論文這幾年AI進步上一堆突破都嘛有發明論文
美國歐洲都有中國的論文也沒少過怎麼今天突然被highlight 笑死

有問題的是那個天殺的OpenAI 就他都不發論文也不開源

而且前述模型訓練指的是DeepSeek V3 這次能力真的讓AI界驚艷的是Deepseek R2 也就是
基於前述V3模型做後訓練真正有創造性的是這個因為OpenAI幾個月前丟出來的o2模型沒
有論文

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.50.51 (臺灣)
※ 作者: attacksoil 2025-02-01 18:41:04
※ 文章代碼(AID): #1ddVf2Nu (C_Chat)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1738406466.A.5F8.html

※ 同主題文章:

● 02-01 18:41 attacksoil. ■ Re: [閒聊] DeepSeek是不是真的很強?

　 02-01 20:08 astrayzip. ■ Re: [閒聊] DeepSeek是不是真的很強?

推 h0103661: 但即使是商用，也很少重新訓練1F 02/01 18:43

→ poz93: 拿來翻譯色遊夠用就算強2F 02/01 18:43

→ shikop: openAI就是來圈錢的3F 02/01 18:43

也就這幾年越來越誇張 openai 本身對ai貢獻還是很大例如現在語音轉文字的標準還是o
penai開源的Whisper模型
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:45:26

推 yahoo2720: 從它開源的那刻起任何嘴它的理由都顯得有點好笑4F 02/01 18:45

沒錯人家都開源了真的沒啥好酸
但也不用太過神話這個Deepseek的衝擊還是沒有當初的llama3和去年的mistral 來的大
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:47:23

→ zwxyzxxx …

推 h0103661: openai都多久了，又不是只有一個產品7F 02/01 18:46

推 guogu: 看b站跟這邊一堆人把訓練跟使用混在一起8F 02/01 18:47
→ guogu: 問是不是以後不用老黃顯卡了是不是可以每台電腦都裝
→ guogu: 單機遊戲是不是每個npc都可以用AI
→ guogu: 那完全就是兩碼子事==

如果是想討論顯卡相關
那就是另一篇了
這篇是講訓練實際跟顯卡相關的是推理

→ zwxyzxxx …

→ shikop: openAI我覺得還是有優勢啦但DS出來就是多一個方法幫大家13F 02/01 18:47
→ shikop: 省成本

推 lianginptt: 阿共仔怎麼可能這麼好心！這一定是孔明的陷阱！15F 02/01 18:48

阿里巴巴開源一堆模型也不是一天兩天的事只能說有些東西是無國界的
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:48:54

推 Peurintesa: 我實在很好奇有些人看到"開源" 他想到的開源到底是啥16F 02/01 18:48

※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:50:05

→ Xpwa563704ju: 老實講開源是真的挺佛心的17F 02/01 18:49

→ shikop: 生命自然會找到出路越打壓越是如此18F 02/01 18:49

推 lianginptt: 通通不準用！阿共仔會偷你資料！19F 02/01 18:50

推 ruby080808: 這塊大部分的人都會開源吧，除了openai ==20F 02/01 18:50

推 h0103661: 哪有大部分==21F 02/01 18:51

推 applehpsh: 沒有一定你有自信自己搞也進步飛快沒有一定要開源22F 02/01 18:51
→ applehpsh: 沒開源的還是遠多於開源的

推 jerry7668: 畢竟多數人可能連基礎什麼都不清楚24F 02/01 18:52
→ jerry7668: 他都敢開源了

推 ko27tye: 開源又怎樣還不是有機會藏木馬!26F 02/01 18:52

→ applehpsh: 當然先撇開開發國是哪國不講如果他願意把自己成果開源27F 02/01 18:53
→ applehpsh: 確實很佛但如果他的被確認是盜用別人東西是另一回事

推 vivianqq30: 上篇有人看到阿共開源會想到在裡面偷塞木馬對啊29F 02/01 18:55

推 Peurintesa: 蛤?你是說開源的盜閉源的嗎?30F 02/01 18:55

偷資料是另外一回事
這裡指的偷資料是用openai api生成的回答來訓練

雖然以開源精神來說我不覺得偷這種資料有多大的道德瑕疵
但如果有偷然後還被抓到那就只能乖乖走訴訟程序

→ vivianqq30: *爆的那篇31F 02/01 18:55

※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:59:54

推 Ipluck: openai自己在網上無視版權亂抓資料訓練模型結果ds出來開32F 02/01 18:56
→ Ipluck: 源後還在那嘴人家抄他們真的很好笑

→ poz93: 這杯水乳滑的梗圖都可以改成這杯水有木馬竊取你資料34F 02/01 18:57

推 Peurintesa: 我是覺得原碼公開這麼久沒被抓到奇怪的東西應該不至於35F 02/01 18:58

推 qscgg: r1有開源嗎？我以為只有v336F 02/01 18:59

模型有 huggingface可以下載完整MOE
但訓練腳本有沒有開源我沒注意

推 knml: openai要正名closeai才對，看不到哪裡open37F 02/01 18:59

→ applehpsh: 很多開源軟體和套件都有過因為人為/非人為bug搞出過資38F 02/01 18:59
→ applehpsh: 漏洞啦不是開源就一定萬無一失

※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:00:53

推 RandyOrlando: 有能力下開源來驗證的幾乎都能抓出有沒有藏木馬好40F 02/01 19:00
→ RandyOrlando: 嗎說話之前先思考一下很難？

→ lianginptt: 阿人家程式碼擺在那邊，有漏洞你抓出來啊，肚子都剖42F 02/01 19:03
→ lianginptt: 開了有幾碗粉不會自己看嗎？

→ ghostxx: 不把所有事扯在一起講要怎麼抹屎44F 02/01 19:04

木馬真的不用擔心
要擔心的是alignment 的問題
但據我所知現在技術對alignment的控制力暫時還沒那麼強應該還可以不太需要擔心...
吧
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:07:39

推 nbook: 偷openai資料要不要想一下這些資料哪來的 openai現在還不o45F 02/01 19:07
→ nbook: pen了笑死

→ nodefence: 這邊好多沒有版權意識的人47F 02/01 19:11

推 lanjack: 現在就是偷了被抓到了啊，至於訴訟我看起來像是openai嗎48F 02/01 19:11

→ zwxyzxxx …

→ lanjack: 所以我說我看起來像是openai嗎？人家查出是怎麼偷的也沒51F 02/01 19:14
→ lanjack: 講，我會通靈是吧？

→ zwxyzxxx …

好像真的很多人不知道偷資料是怎麼偷

稍微說明一下好了如果要偷偷的方法就是花錢用openai 的api 然後用他產生qa pairs
來做測試資料集

看起來跟正常使用差不多真的沒那麼好抓也跟傳統意義上的資安沒有關係
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:17:14

推 Peurintesa: 確實畢竟openai都沒版權意識了==54F 02/01 19:15

推 ZMTL: 其實OpenAI研發副總也在推特上稱讚DS的模型蒸餾，所以OpenAI55F 02/01 19:15
→ ZMTL: 「指責」DS偷我蠻好奇出自哪裡的
→ ZMTL: 然後如果模型蒸餾侵權能被搞成，OpenAI比較需要擔心他們被美
→ ZMTL: 國一堆出版社告偷資料訓練模型會不會成

他稱讚的模型蒸餾是指拿R3來蒸餾llama3還有qwen吧
至於拿openai 的輸出來重新訓練（蒸餾）是否可以告成功我也不清楚但據我所知官方
是禁止的但還是有漏洞可鑽 (shareGPT之類的）
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:20:40

推 RandyOrlando: 沒拿出證據然後說抓到了還硬要上車是....59F 02/01 19:25

推 kaj1983: 之前說侵權的那篇文就說了目前沒證據啊，後續吵都多餘的60F 02/01 19:26

推 haha98: 這版有論文的根本沒幾個跟他們講也是浪費時間擬人真好61F 02/01 19:28

推 hcastray: 我純看戲不站隊因為我完全不懂不過看起來挺有意思的62F 02/01 19:30

推 kayliu945: 我的看法是這樣啦63F 02/01 19:33

推 gm3252: 推64F 02/01 19:35

推 JustWower: 一般人就看AI未來發展怎樣又不用站隊65F 02/01 19:36
→ JustWower: 急著站隊就那種整天在意識形態的

推 crazy6341556: 很多人連蒸餾都搞不清楚 deepseek被太多外行關注了67F 02/01 19:41

推 Peurintesa: 要看論文直接搜尋就有啦68F 02/01 19:43

推 uohZemllac: 推69F 02/01 19:44

→ Peurintesa: https://arxiv.org/abs/2412.19437 v3的70F 02/01 19:44
→ Peurintesa: https://arxiv.org/abs/2501.12948 R1的

[2412.19437] DeepSeek-V3 Technical Report
Abstract page for arXiv paper 2412.19437: DeepSeek-V3 Technical Report ...

[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning Abstract page for arXiv paper 2501.12948: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning ...

→ a3294814: 內行72F 02/01 19:48

噓 adonisXD: 上課教材或影片文本偷別人的你覺得ok?73F 02/01 19:52

推 tank44444: closeAI74F 02/01 19:54

推 Peurintesa: 還在講偷來的我都不知道是在酸誰耶75F 02/01 19:55

→ trialmoon: 比當初講解大谷合約還痛苦= = 無限跳針+根本看不懂英文76F 02/01 20:04
→ trialmoon: 的一堆

推 lovevul3s06: gpt訓練時的東西全部都有經過同意嗎還是未經別人同78F 02/01 20:06
→ lovevul3s06: 意拿來用

噓 Kazuma0332: 誰最怕DS被說偷竊，就是在酸它80F 02/01 20:06

推 busman214: 連中文起訴書都不想看的人怎麼會看英文論文XD81F 02/01 20:06

推 WatsonChao: 吵偷真的好笑，強者會找優點弱者只會找缺點82F 02/01 20:15

→ R620SCANIA: 8964占占占 deepseek快抓網路文章訓練喔83F 02/01 20:20

※ 看板: ACG　文章推薦值: 0 目前人氣: 0 累積人氣: 379　

作者 attacksoil 的最新發文:

+5 [問題] ptcg傷害/血量的個位數有意義嗎 - C_Chat 板

作者: attacksoil 223.136.50.51 (台灣) 2025-02-05 18:45:18

8F 6推 1噓
+7 [問題] 離開A級隊伍的蕾茵是致敬洛克希嗎? - C_Chat 板

作者: attacksoil 111.250.230.157 (台灣) 2025-02-03 20:10:29

7F 7推
+37 Re: [閒聊] DeepSeek是不是真的很強? - C_Chat 板

作者: attacksoil 223.136.50.51 (台灣) 2025-02-01 18:41:04

這串一堆外行首先 DeepSeek模型特點是 1. 訓練成本低 2. 推理成本低先說訓練成本低論文中說的訓練成本低是用最後訓練出這個模型所花的GPU小時乘上費用小時得到的實際有實作經驗的人 …

83F 39推 2噓
+33 Re: [閒聊] 2024入手的手把心得分享 - Steam 板

作者: attacksoil 223.137.212.35 (台灣) 2025-01-25 08:18:52

用了10年的XBOX360手把快掛了再考慮買XBOX ONE手把還是副廠手把看到原原PO這篇收穫良多但感覺訴求好像跟我不太一樣想請問板友建議 1. 核心訴求是不想一直換手把如果能下一隻手把 …

130F 33推
+13 Re: [情報] 毛玉牛乳：我一直承認一個中國原則 - C_Chat 板

作者: attacksoil 223.137.255.193 (台灣) 2025-01-01 22:33:26

34F 14推 1噓

點此顯示更多發文記錄

分享網址: 複製

DispBBS

回到看板(←)《ACG》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享