看板 Stock
作者 Sixigma (六西格瑪)
標題 Re: [請益] 費半成份股全線崩盤 怎麼辦?
時間 Mon Jan 27 15:59:11 2025




既然有人提推論,我就講看看訓練端

DSv3 論文中最大亮點,可能也是目前看起來崩盤的主要是 $5.77 million 的訓練成本

和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 million 訓練

未公開的 GPT5 據 WSJ 說,每一次六個月訓練週期需要花超過 $500 million

簡單用 GPT-4 : DSv3 = o1 : DSR1 估計 o1,但應該更多啦,不過低估在這邊不重要

整理一下目前已知+估計+rumor


GPT-3            : ~$4.6   million
DeepSeekV3 (DSv3): ~$5.576 million
DeepSeekR1 (DSR1): ~$12    million
GPT-4            : >$100   million
OpenAI's o1 Model: ~$200   million
GPT-5            : ~$500   million


也就是說目前市面上的訓練成本會下降 ~50 倍

(20 - 50 之間,看你拿誰當標準)

反過來說是同樣的預算下,若忽視模型設計和 tokenization

模型的迭代週期也會暴漲約 50 倍

我敢說現在 Meta, OpenAI, MS, Google 的伺服器裡面一定滿滿都是 DS

而且在未來六個月會不斷看到新聞是

某某模型訓練成本下降 10% 或加快 10%

或是 OpenAI 成功部屬更低成本的模型,赤字大幅下滑

這樣的新聞


另外 DSR1 也展現了更進化的 CoT,只是單單將推論過程暴露給 MoE

並允許退回驗證回答,這樣的 pipeline 就足以讓模型更好

而且只要 test-time 時間越長,成果就成線性的更好

其實這根本是簡單到不行的想法,效果卻好得嚇人

這些巨頭絕對有能力在短時間內複製出來

-

結論是

我覺得 DS 的出現不會讓資本資出減少,反而是開啟另一輪軍備競賽

只要巨頭們意識到其他巨頭正在複製 DS 的成功,而且甚至更有效率的方法

他們只能繼續加大支出,而且部分的巨頭可能可以轉虧為盈,譬如 OpenAI


加速 50 倍很多嗎?你加速 50 倍,我就要加速 100 倍


大家都加速一百倍的時候,我要加速五百倍,直到開發出 AGI 為止

因為現在所有人都相信 AGI 和 no AGI 就是 0 和 1 的差距

先得到聖杯的人贏者通吃



※ 引述《LDPC (Channel Coding)》之銘言:
: DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃
: 在Inference這塊 因為受限於MoE 所有推論成本可以降下來 但需求變高的是用記憶空間
: 和各個node之間的通訊開銷 以及軟體上cpu/gpu的load balance

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.136 (臺灣)
※ 作者: Sixigma 2025-01-27 15:59:11
※ 文章代碼(AID): #1dbppH1k (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737964753.A.06E.html
※ 同主題文章:
Re: [請益] 費半成份股全線崩盤 怎麼辦?
01-27 15:59 Sixigma
mystage: 不會通吃,AI模型沒有技術壁壘
頂尖團隊間就是幾個月的差距而已1F 01/27 16:02

        AGI 絕對有技術壁壘,光是目前 OpenAI 和 Google 就差了至少半代
        壁壘不只是演算法,可能是算力+演算法+資料

yjjia: 正確,但就股票而言短空是避免不了的3F 01/27 16:04

        估值下滑是有可能的,但直到華爾街撿夠了又會噴了

event1408472: 很好 很積極的想法 再多來一點4F 01/27 16:05

        不看訓練成本,光是看「越長的 CoT 結果會越好」
        就想不到算力需求下降的可能

gladopo: 這波我還真覺得agi會早點到來..5F 01/27 16:06

        沒錯,這就是更高強度軍備競賽的動機之一

yjjia: 本來只有兩大國可以玩的東西,現在發現其他國家也能加入,ai軍備競賽提前降臨6F 01/27 16:07
tradeent: AGI根本不重要8F 01/27 16:07

        如果你的 AGI 和我的 AGI 定義一樣,怎麼會不重要呢?AGI 可以
        解決能源、飢荒、疾病甚至軍事政治法律問題,當然重要
        有這種東西怎麼可能不會盈利?

tradeent: 產品落地開始盈利才重要
而且投資者也會相信9F 01/27 16:07
DecemberLV: 方法開源了 剩下看硬體競賽了 還是不變道理11F 01/27 16:07
tradeent: 客製化特定任務AI比AGI更專業12F 01/27 16:07
shepherdd35: 你們以為老黃去中國自拍 來台灣簽名的喔13F 01/27 16:08
※ 編輯: Sixigma (123.193.249.136 臺灣), 01/27/2025 16:10:25
Roger5566: 你這想法有點危險 美中競爭下全球市場分割14F 01/27 16:08
jasonkuo1943: 軍備競賽還是會一直持續下去,DS的出現只會加速全球AI的推動,硬體規格的需求還是會大幅增加,這不是很簡單的送分題嗎15F 01/27 16:08
Roger5566: 現在GPU需求減少降規 美國難吃中國與開發中國家GPU18F 01/27 16:09
tales1216: 市場找理由回調,不然再繼續漲都要衝擊6600,最後還是要跌19F 01/27 16:09
Roger5566: 市場可能變小下 未來的營收獲利下降 股價都難維持21F 01/27 16:10
lovepork: gpt的全名Generative Pre-Trained Transformers22F 01/27 16:11
Liandh: 訓練成本再低,應用推動還是要算力的啊,抄底NV!23F 01/27 16:11
Roger5566: 股價主要連結EPS與估值 跟公司投資的關聯又不太大24F 01/27 16:11
lovepork: transform architecture類似於attention model25F 01/27 16:11
Sixigma: DSv3不是還是用H800嗎?哪裡市場變小?
NV的營收都來自這些巨頭啊,怎麼關聯不大呢
DS的出現還是撼動不了NV的技術壁壘26F 01/27 16:12
Roger5566: 你覺DS以後會買中國GPU還是繼續買NV?29F 01/27 16:13
Sixigma: 中國哪來的GPU?30F 01/27 16:14
IBIZA: 市場需求有限啦
如果出現只需要1/50的模型 市場會佈一樣多的算力?31F 01/27 16:14
Roger5566: 華為跟寒武紀都有設計GPU 中芯也有製造33F 01/27 16:15
Sixigma: 絕對會,可以快50倍為什麼要慢起來等34F 01/27 16:15
lonelyQQ: 簡單來說台股完蛋過年後一堆人要跳樓了35F 01/27 16:15
kissa0924307: AI黑一開始嘴不可能做出來 有初步成果又嘴成本太高 模型陽春 現在成本降低 模型也堪用了 直接嘴沒人真的需要AI 實在無言36F 01/27 16:15
DWR: 訓練的過程成本真的還好,重點是模型越來越大運行過程需要的算力越來越多,所以一切還是在應用層面能不能起來,這才是獲利。39F 01/27 16:15
Sixigma: 在中國7奈米無法突破的狀況下,那些GPU可用嗎42F 01/27 16:15
IBIZA: 絕對? 現在市場胃納量上限就是變1/5043F 01/27 16:15
Sixigma: 況且CUDA的技術壁壘仍不可能突破,背後是Pytorch
TF ONNX 和一狗票開源三方軟體的支援44F 01/27 16:16
IBIZA: 市場不會無限追求算力46F 01/27 16:16

        這就是本質區別,我相信因為 AGI,市場會無限追求算力
        這也是現在 NV 本益比能夠大到 55 的原因
        還這麼小只是因為鈔票不夠

tradeent: 你的例子MoE模型就能做到
為什麼要用到AGI呢?47F 01/27 16:16
Sixigma: 就算華為可以拿出7奈米GPU,他仍然要花很長的時間49F 01/27 16:16
tradeent: 能源AI 飢荒AI 疾病AI 軍事AI...
總成本可能還少於一個AGI
你要從老闆、投資人的角度去看股價
降成本賺大錢才是最優先
創一個AGI通吃AI市場只是一個夢50F 01/27 16:16

        MoE 做不到這些事情,MoE 不會知道人類不知道的事情

Sixigma: 補足全球開源軟體的能量55F 01/27 16:17
※ 編輯: Sixigma (123.193.249.136 臺灣), 01/27/2025 16:20:04
y800122155: OpenAI哪裡贏了半代? 啥是半代? 9月o1發布 11 12月到現在已經一堆模型屌打o1了56F 01/27 16:18
GN02209611: 推結論58F 01/27 16:20
faelone: 巨頭發現不用投這麼多錢惹,你以為小喀拉咪能買多少59F 01/27 16:20
lonelyQQ: 美國輸慘了 下禮拜all in鹿港股財富自由60F 01/27 16:21
faelone: 你的結論跟華西街表現的就不一樣阿,還在你覺得zz61F 01/27 16:21
edward0811: agi又不是多猛,對岸便宜狠正常吧62F 01/27 16:21
etset: 1/50怎麼算出來的XD63F 01/27 16:22
edward0811: open ai穩破產的,領先有鳥用64F 01/27 16:22
dferww55: 同意這篇,短空中長多65F 01/27 16:23
IBIZA: 訓練GPT-5 花5億鎂, DSV3 557萬鎂, DSR1 1200萬鎂1/50 大概是這樣出來的66F 01/27 16:23

        沒錯,大概算一下啦,GPT4 / DSv3 也可以
        或是我知道有人也用一個模型去推估算力需求和儲備

watashino: 說真的 沒有gpt的100他也不可能用5.77練出r1啦68F 01/27 16:24
edward0811: 拼命買高階鏟子gpu搞,本有點笨蛋69F 01/27 16:24
IBIZA: 1/50算力就能搞定的話....70F 01/27 16:25
renfro928: 認同,AI軍備競賽,算法要改進,算力也要繼續堆,因為輸不起71F 01/27 16:26
CYL009: 不錯 繼續加碼就對了73F 01/27 16:26
IBIZA: 巨頭要投資 還是要看市場啦
市場需求不變的前提是市場胃納量無上限74F 01/27 16:26
edward0811: 巨頭也不是笨蛋,風向不對也會撤資76F 01/27 16:27
IBIZA: 但胃納量不可能無上限77F 01/27 16:27
dferww55: 搞定的意思是發展到頭了?夠用了?不夠,那就是發展加速,沒有硬體需求降低的道理78F 01/27 16:27
IBIZA: 先定義什麼是夠用
如果真的只需要 1/50算力80F 01/27 16:27
kissa0924307: 現在已經不限巨頭能玩了 小公司都能參賽 市場變大才對吧82F 01/27 16:28
※ 編輯: Sixigma (123.193.249.136 臺灣), 01/27/2025 16:28:26
IBIZA: 原本預期10年可以回收的投資變成30年  這樣可以接受?84F 01/27 16:28
dferww55: AI才剛開始,一堆人都還沒有習慣性使用86F 01/27 16:28
kissa0924307: 而且現在模型也沒很可靠 要走的路還很長87F 01/27 16:28
IBIZA: 市場會變大  但如果算力只需要1/50, 那市場要變大50倍 才能抵銷節省的算力88F 01/27 16:28
dferww55: 成本降低怎會回收期變長?是變短吧90F 01/27 16:29
gladopo: AI追求的低標是AGI,不是chatGPT這種就叫夠用91F 01/27 16:29
edward0811: AGI已經準備結束,那來剛開始92F 01/27 16:29
Roger5566: 參考一下電動車 原本是tesla的天下 現在中國車爆衝93F 01/27 16:29
IBIZA: dferww55  你先想青你要講的是甚麼好嗎94F 01/27 16:29
Roger5566: AGI就算加速進展 吃到最多市場的八成不是美國巨頭95F 01/27 16:30
IBIZA: 如果是廠址需要 1/50算力 ->目前巨頭都過度投資
->高階晶片短期會很慘96F 01/27 16:30
gladopo: 現在改變的是進場門票便宜了98F 01/27 16:30
Roger5566: 這樣的趨勢變化 投資人還會這樣無腦砸錢去買Mag7?99F 01/27 16:30
iaminnocent: 其實DS開源就是你有我有大家有,當大家都在同起跑線上,請問要比甚麼,比跑者誰的肌肉協調度跟出力夠吧?那兩者之間會是誰是肌肉協調度好且出力夠的呢?呢?957F 01/28 00:56
chaohsiung: 跟在後面的蒸餾模型成本本來就較低。最前端的大模型需要人工資料,成本很難下降的961F 01/28 04:00

--
作者 Sixigma 的最新發文:
點此顯示更多發文記錄