※ 本文轉寄自 ptt.cc 更新時間: 2025-02-17 21:29:30
看板 Stock
作者 標題 [心得] 資料中心投資方向
時間 Mon Feb 17 14:43:22 2025
"遇到任何不能解決的事情 就用C4炸彈" <謠言終結者>
在AI界這邊也是
"遇到任何無法解決的事情 就用算力出奇蹟" < @v@b AI社群>
(在下方任何段落 只要看到這** 就跳回來這默念這句話)
#算法
從算法這邊看 這陣子不論是DeepSeek也好 甚至去年之前的SSM算法
(比Transformer更具有壓縮資料性) 都會塑造出算力需求是否不在重要?
又或者MoE架構(早期MoE 大模型可追朔到法國的Mistral) 在推論端都可以使用更少的
模型容量(activatino parameters) 去達到Dense 大模型效能 是否意味我們不在需要
高算力? 再拋棄算力無用論 先看往過去幾個歷史發展
模型容量(activatino parameters) 去達到Dense 大模型效能 是否意味我們不在需要
高算力? 再拋棄算力無用論 先看往過去幾個歷史發展
#數據
從數據這邊看 在更早之前 微軟提出"Textbook is all you need"
證明數據高品質可以讓 小模型3B可以接近數十B模型效能 從早期開始野生數據
到去精煉數據 都證明數據的品質決定模型的效能 那是否數據高品質
就可以減低算力需求? 然而在講數據品質前 得先回到
數據這邊的發展史
### (賺p幣 你可以跳過 沒股點)
這世界充滿大量無標籤野生數據 而無標籤的數據通常都是野生數據
並充滿噪聲干擾 而有標籤的數據通常都昂貴 如何利用大量野生數據和少量標籤數據
就變成這幾年的AI算法發展史 這幾年模式
通常都是第一階段先用野生數據去做預訓練 概念有點像文字接龍一樣
或者挖空部分野生數據 叫模型去猜數據被消去的部分長怎樣
又或者用多模態野生數據作預訓練時
去比較 哪兩個多模態屬於同類型 哪兩種多模態數據是不同類型 等等 這樣訓練完模型
通常就做Foundation Model 就想成初始模型 這類模型就是能從野生數據 學到分類
和預測野生數據該長怎樣 但做不了任何事情 他就是只能做分類 沒了
此時為了讓模型做更多複雜的事情 在第二階段訓練 開始運用了高品質標籤數據
這些高品質標籤數據 通常都是一個特地場景 你希望模型能處理的事情
可能是文字翻譯 可能是物體檢測 可能是資訊搜尋和回答問題 透過數據和給的標籤答案
模型學會到了
到此為止 模型還是缺乏所謂智能 無法舉一反三 然後OpenAI介紹出RLHF 畢竟OpenAI
在這領域有PPO設計 這第三階段就是所謂的透過人類給任務和人類的認知
機器去學 這階段也可視為是一種需要答案/標籤的數據反饋 透過RLHF後
機器去學 這階段也可視為是一種需要答案/標籤的數據反饋 透過RLHF後
模型此時展現了有擴佔性和泛化等充滿前景的驚人效果 但如何更好地提高模型效能?
時間線回到了2022~2023
OpenAI發現 透過模型參數變大 數據變大 此時模型的思考能力出現了湧現效果
模型大小會決定數據大小 數據大小和模型大小 決定算力需求(** @v@b 默念上面)
具體公式看這
https://blog.csdn.net/taoqick/article/details/132009733
分析transformer模型的参数量、计算量、中间激活、KV cache、bf16、fp16、混合精度训练_transformer参数量计算-CSDN博客 文章浏览阅读1.2w次,点赞5次,收藏32次。计算端到端训练的GPU利用率时,不仅要考虑前向传递和后向传递的计算时间,还要考虑CPU加载数据、优化器更新、多卡通信和记录日志的时间。上文讲到一次前向传递中,对于每个token,每个模型参数,进行2次浮点数计算。前向计算过程中产生的中间激活,中间激活值与 ...
接者到了2023 GPT等大模型產生後 許多AI社群開始用GPT等來造高品質的標籤數據
像是LLaVA 造出300k 多模態數據 讓TextLLM轉變為多模態能看到影像的LLM
此時 合成數據概念出現了 (又或者稱為distilled synthetic dataset)
就是透過設計任務 比方說給GPT看野生數據 像是圖片或影像 叫GPT找出有車子圖片
並且標注 還記得上面微軟給過高品質數據 能讓小模型打贏大模型嗎?
於是各種用GPT去合成高品質數據文章紛紛出現
接者要來講到Chain-of-thought這概念 在各種第一代LLM出現後 一幫人在開始研究
再不牽涉到重新去調教模型(Training)情況下 如何讓模型變更聰明點?
這時候思考練概念出現 核心概念就是 把一個問題拆成子問題 讓模型更好回答
比方說 你講一句中文 然後叫你家LLM翻成英文 他很可能有時候會翻不好
因為你給的指令是要求LLM一次性的 (一步到位) 答出問題
如果用COT (Chain-of-thought) 此時你可以下指令說 先把我說的中文轉成中文文字
第二步再把中文文字轉成英文文字 這時候模型翻譯能力品質就大幅上升
在設計拆解任務時 你也可以用比較法 比方說 你如果問LLM
我去台北最快的方式是何種? LLM可能會說 跳入蟲洞就可以瞬間到台北這種幻覺回答
又或者根本打不出
而在設計COT 你可以第一步問LLM 去一個地點有哪些方法 然後第二步說 根據每個方法
估出從我現在地點到台北時間 第三步說 從裡面挑出最快的方式 然後模型就能正確回答
到此為止 似乎覺得你家模型可以無成本變得很聰明了 對吧!!!然後在模型效能裡面
估出從我現在地點到台北時間 第三步說 從裡面挑出最快的方式 然後模型就能正確回答
到此為止 似乎覺得你家模型可以無成本變得很聰明了 對吧!!!然後在模型效能裡面
有一個隱藏成本 叫做Infenrece Time/Latency 就是你花多少時間得到你要答案
透過拆解問題 你需要等待時間變長了 但很多場景 你希望模型快速給你答案
但你又希望答案是充滿智能的回答 那該怎樣辦?? (** 默念上句 @v@b)
而算力大小 可以決定Latency 通常我們用Tokens/sec來衡量這指標
然後為何提到COT?因為OpenAI在去年開始把CoT融入訓練一環 改進了RLHF更好的效果
拓展模型思考(reasoning)能力
現在AI界開始反思一個問題 我們能不能不需要用大量人力去做
第三步RLHF 但透過巧妙設計RL和用第一代母模型(e.g. ChatGPT)來合成有思考性質
的數據? 尤其是在第一階段的野生數據 現實中我們已經用完了 現在需要更多的
標籤數據來增加模型的效能 這個論點就是Deepseek R1想驗證的 但這牽涉到好幾個問題
沒有第一代人類反饋LLM是無法做出來的 同時這個LLM還得是多模態能具有思考鏈CoT
才能合成良好的思考數據(Reasoning Sythentic Dataset)
有了這玩意 你就可以開始讓模型去教模型 然後無窮迴圈進化
因此你也看到李飛飛那篇是拿(gemini-2.0-flash-thinking )具有思考的來設計COT
https://arxiv.org/abs/2501.19393 合成數據 這篇只使用SFT 也就是上面第二階段
[2501.19393] s1: Simple test-time scaling
Abstract page for arXiv paper 2501.19393: s1: Simple test-time scaling ...
Abstract page for arXiv paper 2501.19393: s1: Simple test-time scaling ...
就是一個岳飛打張飛 因為r1有用第三步RF 這篇只是要開源合成數據 用SFT
展示合成數據品質 還瘋狂diss這篇亂定義distill概念
從上上週開始 整個AI界都開始嘗試研究 如何用合成數據來教導模型智慧 也就是
如何更適當的設計RL 來讓模型教模型 就是走向alphago-zero概念 但沒有上述這些
歷史巨人肩膀 我們是無法走到這
###賺p幣結束回到股點
#算力
AI在落地端 通常是用Inference效能來決定 裡面有兩個重點 一個是速度已經提過
一個就是能支撐多少用戶 而B200就是這兩者的最漂亮的作品 參考下圖
https://ibb.co/F4mXCnLd
![[圖]](https://i4.disp.cc/t/p/ibb_co_RTYNd7kJ.png)
通常算力越多 能支撐的客戶請求queries就越多 速度也就越快 (** @v@b)
參照 #1crWnRFw 第二個連結 評價GB200 用戶請求效能
Re: [新聞] 稱霸 AI 推理性能,NVIDIA B200 晶片海放 AMD MI300X - Stock板 - Disp BBS
![[圖]]()
![[圖]]()
LDPC 相關文章可以參考這個 比較有意義的是這邊 前言 雖然大家都在討論AI要怎樣獲利 但AI產品要獲利前 有一個很重要的大前提 就是AI infrastructure得先成熟 也就是如何讓巨大數量消費者能
![[圖]](https://i4.disp.cc/s2/p/spectrum.ieee.org/d15b02c38cc2e520e4e36a1640ae1eda.jpg)
![[圖]](https://i4.disp.cc/s2/p/www.aizws.net/static_2Fimages_2Flogo_aizgs.png)
![[圖]](https://i4.disp.cc/s2/p/img.youtube.com/vi_2FUczALD7ZZDU_2F0.jpg)
而在訓練端 Scaling Law 預測了模型大小和數據以及效能的一個線性關係
就算算法上或者數據上改進 也都只是讓Scaling Law 那條斜線更加傾斜
但模型大小仍然會決定智能 因此也意味算力需求是一個線性向上 (** @v@b)
### 股點重點 ###
在講數據中心之前 先回到AI的一個基本方向
AI就是由三個因素疊加起來 算法 資料 算力 就像三原色一樣 缺一不可
算法跟資料算是每個國家都可以自己掌握 唯獨算力是牽涉到基礎大建設
是需要金錢和時間堆積
算法跟資料算是每個國家都可以自己掌握 唯獨算力是牽涉到基礎大建設
是需要金錢和時間堆積
於是 美國第一個看到這點 開始瘋狂的捲資料中心建設
阿祖的故事之前說過了
https://reurl.cc/WNmR8D
Datacenter Anatomy Part 1: Electrical Systems – SemiAnalysis
Meta Datacenter Scrapped, Vertiv, Schneider Electric, Eaton, Legrand, Delta, Datacenter Bill Of Materials By Component, Transformers, Switchgear, Redu ...
Meta Datacenter Scrapped, Vertiv, Schneider Electric, Eaton, Legrand, Delta, Datacenter Bill Of Materials By Component, Transformers, Switchgear, Redu ...
![[圖]](https://i4.disp.cc/t/p/ibb_co_tL87GCq.png)
蓋到一半的數據中心拆掉 重新蓋一次 只為了能更安裝GB200 重新設計散熱和電力
現在就是裁員裁員裁員 瘋狂蓋AI基礎建設
資料中心相關
https://www.youtube.com/watch?v=UczALD7ZZDU
![](https://img.youtube.com/vi/UczALD7ZZDU/0.jpg)
歐洲300多個
然而在AI發展起來 所有新型數據中心變得重要
所以法國開始AI資料中心項目
https://reurl.cc/6jn7mO
《國際產業》法國推動資料中心 電網連結成最大挑戰
【時報編譯張朝欽綜合外電報導】投資人和專家表示,將資料中心與電網連接起來所需的時間,可能會削弱法國利用豐富的核電吸引人工智慧投資的優勢。 法國總統馬克宏(Emmanuel Macron)在本周主持了全球AI高峰會,他稱讚法國的核能正協助吸引了超過1000億歐元(約合1032.6億美元)的人工智慧投資 ...
![[圖]](http://i4.disp.cc/t/s2/s.yimg.com/c1cd57f82601370dbaca67e5c33fdacc.png)
https://www.kaohooninternational.com/technology/552490
Siam AI Plans THB70 Billion Investment to Expand AI Infrastructure
SIAM.AI Cloud advances Thailand’s AI with NVIDIA GB200 NVL72, investing THB70 billion in infrastructure, including GPU clusters and AI cloud facilitie ...
![[圖]](https://www.kaohooninternational.com/wp-content/uploads/2025/02/SiamAI_2025-02-14_news.jpg)
而中國也開始了 GDS萬国数据 在馬來西亞 新加波開始基建數據中心
https://www.youtube.com/watch?v=ApC9qiAT5Ew
![](https://img.youtube.com/vi/ApC9qiAT5Ew/0.jpg)
https://www.ifastdata.com/2024/10/30/新加坡数据中心建设运营商gds-international获得10亿美元b轮融资/
其餘印度和中東也都開始在建設自己的AI基建算力平台
而老黃就是這波數據中心大贏家 一但新型數據中心都走老黃規格 那蘇媽/ARM等三方
就會越難打這場戰爭 這也是為何這兩家最近動作頻繁在加速 老黃就算吃不到中國
也有大機會其他國家得去吃
結論:基於這接下來發展 你可以按照數據 算力 演算法三方向選公司投資
算力:老黃/AVGO
數據: Databrick(要上市了 我會買爆他) Scale AI
算法:狗家 臉家 OpenAI(買不到 @@ 考慮去那掃廁所看能不能給認股)
至於說啥AI現在是已經 到投資落地場景場景公司 呵呵 @v@b
然後這也意味台G是一切的基石 @@
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 172.59.161.237 (美國)
※ 作者: LDPC 2025-02-17 14:43:22
※ 文章代碼(AID): #1dijgJbc (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1739774611.A.966.html
※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:45:04
※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:45:54
※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:46:52
※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:47:49
--
※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:45:54
※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:46:52
※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:47:49
→ : 還好我直接拉到最後看結論1F 02/17 14:47
推 : 樓下幫我看2F 02/17 14:47
※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:50:41→ : 不知道 一堆大家都聽過的大公司+一間新創公司3F 02/17 14:50
→ : 很像詐騙集團騙人上車的手法
※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:54:24→ : 很像詐騙集團騙人上車的手法
推 : 是方5F 02/17 14:53
※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:56:31推 : 懶人包呢6F 02/17 14:56
推 : 算力還是需要的 畢竟才剛開始建設不久 但要想的是7F 02/17 14:56
→ : 所需的算力天花板是不是比原先預期的低 假設原本五
→ : 年才能累積到想要的算力 現在是不是三年的累積量其
→ : 實就夠
→ : 所需的算力天花板是不是比原先預期的低 假設原本五
→ : 年才能累積到想要的算力 現在是不是三年的累積量其
→ : 實就夠
→ : Databrick怎麼聽起來怪怪的XD11F 02/17 14:58
推 : 電腦、傳統伺服器、手機...發展史,那個不是要求越12F 02/17 14:59
→ : 高的算力跟節能(?)所以AI算力需求還是很缺。
→ : 高的算力跟節能(?)所以AI算力需求還是很缺。
推 : 寫那麼多誰看的完14F 02/17 15:00
推 : 但不代表沒天花板 看看筆電 看看手機15F 02/17 15:00
噓 : 你先學會長話短說用16F 02/17 15:01
推 : 99AMD17F 02/17 15:01
推 : 算力 算法 數據 還有能源18F 02/17 15:01
→ : 舅舅AMD19F 02/17 15:01
推 : 伊雲谷呢20F 02/17 15:02
推 : 台灣的就算了吧 都炒作的 最快也要等美國成功才會抄21F 02/17 15:02
→ : 原po是有料的 有一堆過去的文章可印證 能不能消化22F 02/17 15:02
→ : 吸收找到賺錢的機會就看個人了 畢竟不是人人都有賺
→ : 大錢的能力
→ : 吸收找到賺錢的機會就看個人了 畢竟不是人人都有賺
→ : 大錢的能力
推 : 還好都直接看結論 推25F 02/17 15:03
→ : 賺錢的方式就是相信網紅說的AI算力過剩殺價競爭26F 02/17 15:03
→ : 反正散戶還是會自己嚇自己恐慌賣股 做空好賺!
→ : 而且網紅還有自營操盤手一起操縱股價 賣到散戶恐慌!
→ : 反正散戶還是會自己嚇自己恐慌賣股 做空好賺!
→ : 而且網紅還有自營操盤手一起操縱股價 賣到散戶恐慌!
推 : 跟著大爺買 妻妾成群家靠海29F 02/17 15:05
推 : DBR跟數據有關?30F 02/17 15:06
推 : 推是方+131F 02/17 15:07
推 : 買台積電32F 02/17 15:10
推 : 謝謝解釋 有學習33F 02/17 15:15
推 : 綠電啊 怎麼沒人提34F 02/17 15:17
推 : 寫的很好35F 02/17 15:23
推 : 沒gtp第一步就不會有other但現在other也有機會幹掉g37F 02/17 15:26
→ : tp,關鍵就是算力
→ : tp,關鍵就是算力
推 : 好文推,有看完。39F 02/17 15:26
推 : 99nvdl40F 02/17 15:34
推 : 好文不推不行41F 02/17 15:36
推 : 感謝業界人士分享~42F 02/17 15:37
推 : 好~我也要買爆 Databrick43F 02/17 15:38
推 : 謝分享44F 02/17 15:40
推 : 對,應該要找尚未被炒高的股票45F 02/17 15:40
→ : Databricks
→ : 複數,有s
→ : Databricks
→ : 複數,有s
推 : Databricks真的買爆 MongoDB 資料庫公司怎麼看?48F 02/17 15:45
推 : 微軟跟open ai有關係買微軟也可以吧?49F 02/17 15:56
推 : databricks j輪募資有meta,值得期待50F 02/17 16:15
推 : 推分享51F 02/17 16:17
推 : 美國大爺QQ52F 02/17 16:21
推 : 最後一句重點53F 02/17 16:25
推 : 是方 是圓 繼續化緣54F 02/17 16:32
推 : 感謝分析,等databrick IPO55F 02/17 16:34
推 : 這麼好的文章 不推爆嗎!!56F 02/17 16:37
推 : 可是板上會有人說這些是空中樓閣 XDDD57F 02/17 16:40
推 : NVDL都回60幾了還要救?58F 02/17 16:41
噓 : 算力永遠不嫌多 根本不用分析59F 02/17 16:43
推 : 寫的很好,但是我看不懂,買就對了!60F 02/17 16:54
→ : thesis: scaling law persists. until …61F 02/17 17:13
推 : 我只懂最後62F 02/17 17:29
推 : 謝謝分享63F 02/17 17:59
推 : 複製貼上真好用64F 02/17 17:59
推 : 感謝65F 02/17 18:59
推 : 受益良多,謝謝分享66F 02/17 19:11
→ WD640G …
推 : 最後一句話我看得懂哈哈68F 02/17 19:38
推 : Databrick何時上市,需要摳訊?69F 02/17 19:49
推 : 推爆70F 02/17 20:09
推 : 好文給推71F 02/17 20:09
推 : 沒有MU,QQ72F 02/17 20:18
推 : 不推不行73F 02/17 20:30
→ : 感謝摳訊 我也想跟單74F 02/17 20:43
--
※ 看板: Stock 文章推薦值: 0 目前人氣: 0 累積人氣: 39
作者 LDPC 的最新發文:
- "遇到任何不能解決的事情 就用C4炸彈" 在AI界這邊也是 "遇到任何無法解決的事情 就用算力出奇蹟" < @v@b AI社群> (在下方任何段落 …74F 52推 2噓
- 蘇媽在最近一次採訪給了ASIC跟GPU大戰的註解 她註解 Despite this, Su doesn't expect dedicated AI ASICs to replace GPUs …128F 64推 1噓
- 怎抹這邊突然變AI版 =_= DeepSeek 有件事情幹得比矽谷好 就是AI Backend 優化(這玩意就是需要懂架構 和軟體 就是一個苦力枯燥活) 大體而言 在A100架構以前 大部分訓練都還 …150F 76推
- 47F 17推 1噓
- 就是算力才是絕對 (新聞用運算這詞可能不太好懂) 吃瓜可以看下面翻譯 無窮算力->無窮智能 這就是OpenAI和Andrej Karpathy, Jim Fan甚至認為 高算力模型可以訓練更強大 …103F 37推
點此顯示更多發文記錄
→
guest
回列表(←)
分享