看板 Stock作者 Sixigma (六西格瑪)標題 Re: [請益] 費半成份股全線崩盤 怎麼辦?時間 Mon Jan 27 15:59:11 2025
既然有人提推論,我就講看看訓練端
DSv3 論文中最大亮點,可能也是目前看起來崩盤的主要是 $5.77 million 的訓練成本
和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 million 訓練
未公開的 GPT5 據 WSJ 說,每一次六個月訓練週期需要花超過 $500 million
簡單用 GPT-4 : DSv3 = o1 : DSR1 估計 o1,但應該更多啦,不過低估在這邊不重要
整理一下目前已知+估計+rumor
GPT-3 : ~$4.6 million
DeepSeekV3 (DSv3): ~$5.576 million
DeepSeekR1 (DSR1): ~$12 million
GPT-4 : >$100 million
OpenAI's o1 Model: ~$200 million
GPT-5 : ~$500 million
也就是說目前市面上的訓練成本會下降 ~50 倍
(20 - 50 之間,看你拿誰當標準)
反過來說是同樣的預算下,若忽視模型設計和 tokenization
模型的迭代週期也會暴漲約 50 倍
我敢說現在 Meta, OpenAI, MS, Google 的伺服器裡面一定滿滿都是 DS
而且在未來六個月會不斷看到新聞是
某某模型訓練成本下降 10% 或加快 10%
或是 OpenAI 成功部屬更低成本的模型,赤字大幅下滑
這樣的新聞
另外 DSR1 也展現了更進化的 CoT,只是單單將推論過程暴露給 MoE
並允許退回驗證回答,這樣的 pipeline 就足以讓模型更好
而且只要 test-time 時間越長,成果就成線性的更好
其實這根本是簡單到不行的想法,效果卻好得嚇人
這些巨頭絕對有能力在短時間內複製出來
-
結論是
我覺得 DS 的出現不會讓資本資出減少,反而是開啟另一輪軍備競賽
只要巨頭們意識到其他巨頭正在複製 DS 的成功,而且甚至更有效率的方法
他們只能繼續加大支出,而且部分的巨頭可能可以轉虧為盈,譬如 OpenAI
加速 50 倍很多嗎?你加速 50 倍,我就要加速 100 倍
大家都加速一百倍的時候,我要加速五百倍,直到開發出 AGI 為止
因為現在所有人都相信 AGI 和 no AGI 就是 0 和 1 的差距
先得到聖杯的人贏者通吃
※ 引述《LDPC (Channel Coding)》之銘言:
: DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃
: 在Inference這塊 因為受限於MoE 所有推論成本可以降下來 但需求變高的是用記憶空間
: 和各個node之間的通訊開銷 以及軟體上cpu/gpu的load balance
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.136 (臺灣)
※ 作者: Sixigma 2025-01-27 15:59:11
※ 文章代碼(AID): #1dbppH1k (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737964753.A.06E.html
※ 同主題文章:
Re: [請益] 費半成份股全線崩盤 怎麼辦?
01-27 15:59 Sixigma
→ mystage: 不會通吃,AI模型沒有技術壁壘
頂尖團隊間就是幾個月的差距而已1F 01/27 16:02
AGI 絕對有技術壁壘,光是目前 OpenAI 和 Google 就差了至少半代
壁壘不只是演算法,可能是算力+演算法+資料
推 yjjia: 正確,但就股票而言短空是避免不了的3F 01/27 16:04
估值下滑是有可能的,但直到華爾街撿夠了又會噴了
不看訓練成本,光是看「越長的 CoT 結果會越好」
就想不到算力需求下降的可能
推 gladopo: 這波我還真覺得agi會早點到來..5F 01/27 16:06
沒錯,這就是更高強度軍備競賽的動機之一
推 yjjia: 本來只有兩大國可以玩的東西,現在發現其他國家也能加入,ai軍備競賽提前降臨6F 01/27 16:07
如果你的 AGI 和我的 AGI 定義一樣,怎麼會不重要呢?AGI 可以
解決能源、飢荒、疾病甚至軍事政治法律問題,當然重要
有這種東西怎麼可能不會盈利?
→ tradeent: 產品落地開始盈利才重要
而且投資者也會相信9F 01/27 16:07
推 DecemberLV: 方法開源了 剩下看硬體競賽了 還是不變道理11F 01/27 16:07
→ tradeent: 客製化特定任務AI比AGI更專業12F 01/27 16:07
※ 編輯: Sixigma (123.193.249.136 臺灣), 01/27/2025 16:10:25
→ Roger5566: 你這想法有點危險 美中競爭下全球市場分割14F 01/27 16:08
→ jasonkuo1943: 軍備競賽還是會一直持續下去,DS的出現只會加速全球AI的推動,硬體規格的需求還是會大幅增加,這不是很簡單的送分題嗎15F 01/27 16:08
→ Roger5566: 現在GPU需求減少降規 美國難吃中國與開發中國家GPU18F 01/27 16:09
推 tales1216: 市場找理由回調,不然再繼續漲都要衝擊6600,最後還是要跌19F 01/27 16:09
→ Roger5566: 市場可能變小下 未來的營收獲利下降 股價都難維持21F 01/27 16:10
推 lovepork: gpt的全名Generative Pre-Trained Transformers22F 01/27 16:11
推 Liandh: 訓練成本再低,應用推動還是要算力的啊,抄底NV!23F 01/27 16:11
→ Roger5566: 股價主要連結EPS與估值 跟公司投資的關聯又不太大24F 01/27 16:11
→ lovepork: transform architecture類似於attention model25F 01/27 16:11
→ Sixigma: DSv3不是還是用H800嗎?哪裡市場變小?
NV的營收都來自這些巨頭啊,怎麼關聯不大呢
DS的出現還是撼動不了NV的技術壁壘26F 01/27 16:12
→ Roger5566: 你覺DS以後會買中國GPU還是繼續買NV?29F 01/27 16:13
→ Sixigma: 中國哪來的GPU?30F 01/27 16:14
→ IBIZA: 市場需求有限啦
如果出現只需要1/50的模型 市場會佈一樣多的算力?31F 01/27 16:14
→ Roger5566: 華為跟寒武紀都有設計GPU 中芯也有製造33F 01/27 16:15
→ Sixigma: 絕對會,可以快50倍為什麼要慢起來等34F 01/27 16:15
推 lonelyQQ: 簡單來說台股完蛋過年後一堆人要跳樓了35F 01/27 16:15
推 kissa0924307: AI黑一開始嘴不可能做出來 有初步成果又嘴成本太高 模型陽春 現在成本降低 模型也堪用了 直接嘴沒人真的需要AI 實在無言36F 01/27 16:15
推 DWR: 訓練的過程成本真的還好,重點是模型越來越大運行過程需要的算力越來越多,所以一切還是在應用層面能不能起來,這才是獲利。39F 01/27 16:15
→ Sixigma: 在中國7奈米無法突破的狀況下,那些GPU可用嗎42F 01/27 16:15
→ IBIZA: 絕對? 現在市場胃納量上限就是變1/5043F 01/27 16:15
→ Sixigma: 況且CUDA的技術壁壘仍不可能突破,背後是Pytorch
TF ONNX 和一狗票開源三方軟體的支援44F 01/27 16:16
→ IBIZA: 市場不會無限追求算力46F 01/27 16:16
這就是本質區別,我相信因為 AGI,市場會無限追求算力
這也是現在 NV 本益比能夠大到 55 的原因
還這麼小只是因為鈔票不夠
推 tradeent: 你的例子MoE模型就能做到
為什麼要用到AGI呢?47F 01/27 16:16
→ Sixigma: 就算華為可以拿出7奈米GPU,他仍然要花很長的時間49F 01/27 16:16
→ tradeent: 能源AI 飢荒AI 疾病AI 軍事AI...
總成本可能還少於一個AGI
你要從老闆、投資人的角度去看股價
降成本賺大錢才是最優先
創一個AGI通吃AI市場只是一個夢50F 01/27 16:16
MoE 做不到這些事情,MoE 不會知道人類不知道的事情
→ Sixigma: 補足全球開源軟體的能量55F 01/27 16:17
※ 編輯: Sixigma (123.193.249.136 臺灣), 01/27/2025 16:20:04
推 y800122155: OpenAI哪裡贏了半代? 啥是半代? 9月o1發布 11 12月到現在已經一堆模型屌打o1了56F 01/27 16:18
→ faelone: 巨頭發現不用投這麼多錢惹,你以為小喀拉咪能買多少59F 01/27 16:20
推 lonelyQQ: 美國輸慘了 下禮拜all in鹿港股財富自由60F 01/27 16:21
→ faelone: 你的結論跟華西街表現的就不一樣阿,還在你覺得zz61F 01/27 16:21
推 etset: 1/50怎麼算出來的XD63F 01/27 16:22
→ IBIZA: 訓練GPT-5 花5億鎂, DSV3 557萬鎂, DSR1 1200萬鎂1/50 大概是這樣出來的66F 01/27 16:23
沒錯,大概算一下啦,GPT4 / DSv3 也可以
或是我知道有人也用一個模型去推估算力需求和儲備
推 watashino: 說真的 沒有gpt的100他也不可能用5.77練出r1啦68F 01/27 16:24
→ IBIZA: 1/50算力就能搞定的話....70F 01/27 16:25
推 renfro928: 認同,AI軍備競賽,算法要改進,算力也要繼續堆,因為輸不起71F 01/27 16:26
→ CYL009: 不錯 繼續加碼就對了73F 01/27 16:26
→ IBIZA: 巨頭要投資 還是要看市場啦
市場需求不變的前提是市場胃納量無上限74F 01/27 16:26
→ IBIZA: 但胃納量不可能無上限77F 01/27 16:27
→ dferww55: 搞定的意思是發展到頭了?夠用了?不夠,那就是發展加速,沒有硬體需求降低的道理78F 01/27 16:27
→ IBIZA: 先定義什麼是夠用
如果真的只需要 1/50算力80F 01/27 16:27
※ 編輯: Sixigma (123.193.249.136 臺灣), 01/27/2025 16:28:26
→ IBIZA: 原本預期10年可以回收的投資變成30年 這樣可以接受?84F 01/27 16:28
→ dferww55: AI才剛開始,一堆人都還沒有習慣性使用86F 01/27 16:28
→ IBIZA: 市場會變大 但如果算力只需要1/50, 那市場要變大50倍 才能抵銷節省的算力88F 01/27 16:28
→ dferww55: 成本降低怎會回收期變長?是變短吧90F 01/27 16:29
推 gladopo: AI追求的低標是AGI,不是chatGPT這種就叫夠用91F 01/27 16:29
推 Roger5566: 參考一下電動車 原本是tesla的天下 現在中國車爆衝93F 01/27 16:29
→ IBIZA: dferww55 你先想青你要講的是甚麼好嗎94F 01/27 16:29
→ Roger5566: AGI就算加速進展 吃到最多市場的八成不是美國巨頭95F 01/27 16:30
→ IBIZA: 如果是廠址需要 1/50算力 ->目前巨頭都過度投資
->高階晶片短期會很慘96F 01/27 16:30
→ gladopo: 現在改變的是進場門票便宜了98F 01/27 16:30
→ Roger5566: 這樣的趨勢變化 投資人還會這樣無腦砸錢去買Mag7?99F 01/27 16:30
推 iaminnocent: 其實DS開源就是你有我有大家有,當大家都在同起跑線上,請問要比甚麼,比跑者誰的肌肉協調度跟出力夠吧?那兩者之間會是誰是肌肉協調度好且出力夠的呢?呢?957F 01/28 00:56
推 chaohsiung: 跟在後面的蒸餾模型成本本來就較低。最前端的大模型需要人工資料,成本很難下降的961F 01/28 04:00
--