Re: [請益] 費半成份股全線崩盤怎麼辦？ - Stock板

看板 Stock
作者 Sixigma (六西格瑪)
標題 Re: [請益] 費半成份股全線崩盤怎麼辦？
時間 Mon Jan 27 15:59:11 2025

既然有人提推論，我就講看看訓練端

DSv3 論文中最大亮點，可能也是目前看起來崩盤的主要是 $5.77 million 的訓練成本

和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 million 訓練

未公開的 GPT5 據 WSJ 說，每一次六個月訓練週期需要花超過 $500 million

簡單用 GPT-4 : DSv3 = o1 : DSR1 估計 o1，但應該更多啦，不過低估在這邊不重要

整理一下目前已知+估計+rumor

GPT-3 : ~$4.6 million
DeepSeekV3 (DSv3): ~$5.576 million
DeepSeekR1 (DSR1): ~$12 million
GPT-4 : >$100 million
OpenAI's o1 Model: ~$200 million
GPT-5 : ~$500 million

也就是說目前市面上的訓練成本會下降 ~50 倍

(20 - 50 之間，看你拿誰當標準)

反過來說是同樣的預算下，若忽視模型設計和 tokenization

模型的迭代週期也會暴漲約 50 倍

我敢說現在 Meta, OpenAI, MS, Google 的伺服器裡面一定滿滿都是 DS

而且在未來六個月會不斷看到新聞是

某某模型訓練成本下降 10% 或加快 10%

或是 OpenAI 成功部屬更低成本的模型，赤字大幅下滑

這樣的新聞

另外 DSR1 也展現了更進化的 CoT，只是單單將推論過程暴露給 MoE

並允許退回驗證回答，這樣的 pipeline 就足以讓模型更好

而且只要 test-time 時間越長，成果就成線性的更好

其實這根本是簡單到不行的想法，效果卻好得嚇人

這些巨頭絕對有能力在短時間內複製出來

-

結論是

我覺得 DS 的出現不會讓資本資出減少，反而是開啟另一輪軍備競賽

只要巨頭們意識到其他巨頭正在複製 DS 的成功，而且甚至更有效率的方法

他們只能繼續加大支出，而且部分的巨頭可能可以轉虧為盈，譬如 OpenAI

加速 50 倍很多嗎？你加速 50 倍，我就要加速 100 倍

大家都加速一百倍的時候，我要加速五百倍，直到開發出 AGI 為止

因為現在所有人都相信 AGI 和 no AGI 就是 0 和 1 的差距

先得到聖杯的人贏者通吃

※ 引述《LDPC (Channel Coding)》之銘言：
: DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃
: 在Inference這塊因為受限於MoE 所有推論成本可以降下來但需求變高的是用記憶空間
: 和各個node之間的通訊開銷以及軟體上cpu/gpu的load balance

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.136 (臺灣)
※ 作者: Sixigma 2025-01-27 15:59:11
※ 文章代碼(AID): #1dbppH1k (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737964753.A.06E.html

※ 同主題文章:

[請益] 費半成份股全線崩盤怎麼辦？

01-27 10:07 d012375913

Re: [請益] 費半成份股全線崩盤怎麼辦？

01-27 11:31 keio5566

Re: [請益] 費半成份股全線崩盤怎麼辦？

01-27 13:57 redbeansyrup

Re: [請益] 費半成份股全線崩盤怎麼辦？

01-27 15:59 Sixigma

→ mystage: 不會通吃，AI模型沒有技術壁壘
頂尖團隊間就是幾個月的差距而已1F 01/27 16:02

AGI 絕對有技術壁壘，光是目前 OpenAI 和 Google 就差了至少半代
壁壘不只是演算法，可能是算力+演算法+資料

推 yjjia: 正確，但就股票而言短空是避免不了的3F 01/27 16:04

估值下滑是有可能的，但直到華爾街撿夠了又會噴了

推 event1408472: 很好很積極的想法再多來一點4F 01/27 16:05

不看訓練成本，光是看「越長的 CoT 結果會越好」
就想不到算力需求下降的可能

推 gladopo: 這波我還真覺得agi會早點到來..5F 01/27 16:06

沒錯，這就是更高強度軍備競賽的動機之一

推 yjjia: 本來只有兩大國可以玩的東西，現在發現其他國家也能加入，ai軍備競賽提前降臨6F 01/27 16:07

推 tradeent: AGI根本不重要8F 01/27 16:07

如果你的 AGI 和我的 AGI 定義一樣，怎麼會不重要呢？AGI 可以
解決能源、飢荒、疾病甚至軍事政治法律問題，當然重要
有這種東西怎麼可能不會盈利？

→ tradeent: 產品落地開始盈利才重要
而且投資者也會相信9F 01/27 16:07

推 DecemberLV: 方法開源了剩下看硬體競賽了還是不變道理11F 01/27 16:07

→ tradeent: 客製化特定任務AI比AGI更專業12F 01/27 16:07

推 shepherdd35: 你們以為老黃去中國自拍來台灣簽名的喔13F 01/27 16:08

※ 編輯: Sixigma (123.193.249.136 臺灣), 01/27/2025 16:10:25

→ Roger5566: 你這想法有點危險美中競爭下全球市場分割14F 01/27 16:08

→ jasonkuo1943: 軍備競賽還是會一直持續下去，DS的出現只會加速全球AI的推動，硬體規格的需求還是會大幅增加，這不是很簡單的送分題嗎15F 01/27 16:08

→ Roger5566: 現在GPU需求減少降規美國難吃中國與開發中國家GPU18F 01/27 16:09

推 tales1216: 市場找理由回調，不然再繼續漲都要衝擊6600，最後還是要跌19F 01/27 16:09

→ Roger5566: 市場可能變小下未來的營收獲利下降股價都難維持21F 01/27 16:10

推 lovepork: gpt的全名Generative Pre-Trained Transformers22F 01/27 16:11

推 Liandh: 訓練成本再低，應用推動還是要算力的啊，抄底NV!23F 01/27 16:11

→ Roger5566: 股價主要連結EPS與估值跟公司投資的關聯又不太大24F 01/27 16:11

→ lovepork: transform architecture類似於attention model25F 01/27 16:11

→ Sixigma: DSv3不是還是用H800嗎？哪裡市場變小?
NV的營收都來自這些巨頭啊，怎麼關聯不大呢
DS的出現還是撼動不了NV的技術壁壘26F 01/27 16:12

→ Roger5566: 你覺DS以後會買中國GPU還是繼續買NV?29F 01/27 16:13

→ Sixigma: 中國哪來的GPU？30F 01/27 16:14

→ IBIZA: 市場需求有限啦
如果出現只需要1/50的模型市場會佈一樣多的算力?31F 01/27 16:14

→ Roger5566: 華為跟寒武紀都有設計GPU 中芯也有製造33F 01/27 16:15

→ Sixigma: 絕對會，可以快50倍為什麼要慢起來等34F 01/27 16:15

推 lonelyQQ: 簡單來說台股完蛋過年後一堆人要跳樓了35F 01/27 16:15

推 kissa0924307: AI黑一開始嘴不可能做出來有初步成果又嘴成本太高模型陽春現在成本降低模型也堪用了直接嘴沒人真的需要AI 實在無言36F 01/27 16:15

推 DWR: 訓練的過程成本真的還好，重點是模型越來越大運行過程需要的算力越來越多，所以一切還是在應用層面能不能起來，這才是獲利。39F 01/27 16:15

→ Sixigma: 在中國7奈米無法突破的狀況下，那些GPU可用嗎42F 01/27 16:15

→ IBIZA: 絕對? 現在市場胃納量上限就是變1/5043F 01/27 16:15

→ Sixigma: 況且CUDA的技術壁壘仍不可能突破，背後是Pytorch
TF ONNX 和一狗票開源三方軟體的支援44F 01/27 16:16

→ IBIZA: 市場不會無限追求算力46F 01/27 16:16

這就是本質區別，我相信因為 AGI，市場會無限追求算力
這也是現在 NV 本益比能夠大到 55 的原因
還這麼小只是因為鈔票不夠

推 tradeent: 你的例子MoE模型就能做到
為什麼要用到AGI呢？47F 01/27 16:16

→ Sixigma: 就算華為可以拿出7奈米GPU，他仍然要花很長的時間49F 01/27 16:16

→ tradeent: 能源AI 飢荒AI 疾病AI 軍事AI...
總成本可能還少於一個AGI
你要從老闆、投資人的角度去看股價
降成本賺大錢才是最優先
創一個AGI通吃AI市場只是一個夢50F 01/27 16:16

MoE 做不到這些事情，MoE 不會知道人類不知道的事情

→ Sixigma: 補足全球開源軟體的能量55F 01/27 16:17

※ 編輯: Sixigma (123.193.249.136 臺灣), 01/27/2025 16:20:04

推 y800122155: OpenAI哪裡贏了半代? 啥是半代? 9月o1發布 11 12月到現在已經一堆模型屌打o1了56F 01/27 16:18

推 GN02209611: 推結論58F 01/27 16:20

→ faelone: 巨頭發現不用投這麼多錢惹，你以為小喀拉咪能買多少59F 01/27 16:20

推 lonelyQQ: 美國輸慘了下禮拜all in鹿港股財富自由60F 01/27 16:21

→ faelone: 你的結論跟華西街表現的就不一樣阿，還在你覺得zz61F 01/27 16:21

推 edward0811: agi又不是多猛，對岸便宜狠正常吧62F 01/27 16:21

推 etset: 1/50怎麼算出來的XD63F 01/27 16:22

→ edward0811: open ai穩破產的，領先有鳥用64F 01/27 16:22

→ dferww55: 同意這篇，短空中長多65F 01/27 16:23

→ IBIZA: 訓練GPT-5 花5億鎂, DSV3 557萬鎂, DSR1 1200萬鎂1/50 大概是這樣出來的66F 01/27 16:23

沒錯，大概算一下啦，GPT4 / DSv3 也可以
或是我知道有人也用一個模型去推估算力需求和儲備

推 watashino: 說真的沒有gpt的100他也不可能用5.77練出r1啦68F 01/27 16:24

推 edward0811: 拼命買高階鏟子gpu搞，本有點笨蛋69F 01/27 16:24

→ IBIZA: 1/50算力就能搞定的話....70F 01/27 16:25

推 renfro928: 認同，AI軍備競賽，算法要改進，算力也要繼續堆，因為輸不起71F 01/27 16:26

→ CYL009: 不錯繼續加碼就對了73F 01/27 16:26

→ IBIZA: 巨頭要投資還是要看市場啦
市場需求不變的前提是市場胃納量無上限74F 01/27 16:26

推 edward0811: 巨頭也不是笨蛋，風向不對也會撤資76F 01/27 16:27

→ IBIZA: 但胃納量不可能無上限77F 01/27 16:27

→ dferww55: 搞定的意思是發展到頭了？夠用了？不夠，那就是發展加速，沒有硬體需求降低的道理78F 01/27 16:27

→ IBIZA: 先定義什麼是夠用
如果真的只需要 1/50算力80F 01/27 16:27

推 kissa0924307: 現在已經不限巨頭能玩了小公司都能參賽市場變大才對吧82F 01/27 16:28

※ 編輯: Sixigma (123.193.249.136 臺灣), 01/27/2025 16:28:26

→ IBIZA: 原本預期10年可以回收的投資變成30年這樣可以接受?84F 01/27 16:28

→ dferww55: AI才剛開始，一堆人都還沒有習慣性使用86F 01/27 16:28

→ kissa0924307: 而且現在模型也沒很可靠要走的路還很長87F 01/27 16:28

→ IBIZA: 市場會變大但如果算力只需要1/50, 那市場要變大50倍才能抵銷節省的算力88F 01/27 16:28

→ dferww55: 成本降低怎會回收期變長？是變短吧90F 01/27 16:29

推 gladopo: AI追求的低標是AGI，不是chatGPT這種就叫夠用91F 01/27 16:29

推 edward0811: AGI已經準備結束，那來剛開始92F 01/27 16:29

推 Roger5566: 參考一下電動車原本是tesla的天下現在中國車爆衝93F 01/27 16:29

→ IBIZA: dferww55 你先想青你要講的是甚麼好嗎94F 01/27 16:29

→ Roger5566: AGI就算加速進展吃到最多市場的八成不是美國巨頭95F 01/27 16:30

→ IBIZA: 如果是廠址需要 1/50算力 ->目前巨頭都過度投資
->高階晶片短期會很慘96F 01/27 16:30

→ gladopo: 現在改變的是進場門票便宜了98F 01/27 16:30

→ Roger5566: 這樣的趨勢變化投資人還會這樣無腦砸錢去買Mag7?99F 01/27 16:30

推 iaminnocent: 其實DS開源就是你有我有大家有，當大家都在同起跑線上，請問要比甚麼，比跑者誰的肌肉協調度跟出力夠吧？那兩者之間會是誰是肌肉協調度好且出力夠的呢？呢？957F 01/28 00:56

推 chaohsiung: 跟在後面的蒸餾模型成本本來就較低。最前端的大模型需要人工資料，成本很難下降的961F 01/28 04:00

作者 Sixigma 的最新發文:

+32 [新聞] 外太空也能通聯發科5G NTN晶片驗證成功兆元商機爆發 - Stock 板

作者: Sixigma 101.10.3.255 (台灣) 2025-02-25 16:37:31

為搶攻兆元商機，全球衛星通訊領導者Eutelsat集團、通訊晶片大廠聯發科技及航太巨頭空中巴士（Airbus）24日共同宣布，透過Eutelsat旗下OneWeb低地球軌道（LEO）衛星群，成功 …

47F 33推 1噓
+214 Re: [請益] 費半成份股全線崩盤怎麼辦？ - Stock 板

作者: Sixigma 123.193.249.136 (台灣) 2025-01-27 15:59:11

既然有人提推論，我就講看看訓練端 DSv3 論文中最大亮點，可能也是目前看起來崩盤的主要是 $5.77 million 的訓練成本和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 milli …

962F 225推 11噓
+8 Re: [新聞] 路透：美商務部令台積電停供中國7奈米 - Stock 板

作者: Sixigma 101.12.25.183 (台灣) 2024-11-11 08:28:03

26F 8推
+14 Re: [請益] 這次Ai和5G元宇宙3D列印有什麼不同 - Stock 板

作者: Sixigma 140.116.92.172 (台灣) 2024-07-04 19:38:41

30F 14推
+3 Re: [新聞] 馬雲昔對談張忠謀酸「70歲人談創新、台灣 - Stock 板

作者: Sixigma 140.116.92.172 (台灣) 2024-06-16 14:20:23

12F 4推 1噓

點此顯示更多發文記錄