[新聞] DeepSeek放大招！開源「新星」FlashMLA登場：大模型效率革命能否破解「AI芯片荒」？ - Stock板

作者 icrose (人本良心)
標題 [新聞] DeepSeek放大招！開源「新星」FlashMLA登場：大模型效率
時間 Wed Feb 26 01:10:30 2025

原文標題：DeepSeek放大招！開源「新星」FlashMLA登場：大模型效率革命能否破解「AI芯片荒」？
原文連接：https://news.qq.com/rain/a/20250225A097R600
發布時間：2025-02-25 21:19
記者署名：朱成祥
原文內容：

2月24日上午，DeepSeek（深度求索）發布首個開源項目FlashMLA。根據DeepSeek在GitHub社區披露的信息，FlashMLA是適用於Hopper GPU（一種英偉達圖形處理器架構）的高效MLA（多頭潛註意力）解碼內核，針對可變長度序列服務進行了優化。在H800（一款英偉達芯片）上可以實現每秒處理3000GB（千兆字節）數據，每秒執行580萬億次浮點運算。

有業內觀點認為，目前限製DeepSeek推理的主要瓶頸就是顯存，FlashMLA則是「以算代存」，可解決推理過程中顯存容量不足的問題。

對此，PPIO派歐雲聯合創始人兼CTO王聞宇告訴《每日經濟新聞》記者：「（該觀點）不完全正確，MLA的本質是在基礎算法上的創新，通過將KV的權重矩陣轉換到潛空間，實現矩陣的大幅壓縮並且不造成精度損失。壓縮算法會引入微弱的計算量的增加，但是由此帶來的數據存儲開銷大幅下降，訓練及推理速度大幅提升，需要計算的數據總量減少了，總計算量反而減少了，相應的訓練和推理速度就會大幅提高。」

顯存容量成門檻

當下，外界普遍使用顯存來測算部署DeepSeek各類模型所需要的推理算力。比如根據民生證券研報，像DeepSeek-R1一個專註於實時推理的優化版本，擁有15B參數，推理時激活全部15B參數，顯存需求約為30GB（FP16精度），單張NVIDIA A100（英偉達顯卡）或單張RTX 4090（英偉達消費級顯卡）等顯卡可滿足需求。

像DeepSeek 67B是一個擁有67B參數的大型模型，推理時激活全部67B參數，顯存需求約為140GB（FP16精度）。推薦使用4張A100-80G GPU進行多卡並行推理。

照此計算，DeepSeek R1「滿血版」擁有671B參數，在FP16精度下，需要1.4TB（太字節）顯存；在FP8精度下，也需要約700GB顯存。如果按照一個服務器8張卡計算，單卡80GB的8卡服務器滿足不了「滿血版」的推理工作，可能需要多個服務器互連。

關於顯存是否為限製DeepSeek推理的主要瓶頸，王聞宇認為：「DeepSeek模型與其他主流模型相比，參數量更大，決定了其需要更大容量顯存以加載模型權重，顯存容量是門檻，不是瓶頸。」

那麽，參數量小得多的蒸餾模型是否滿足應用需求？王聞宇表示：「蒸餾版本與滿血版本相比，參數量少很多，比如Qwen-7B，只有滿血版671B的百分之一，參數量少，導致在模型性能上遠弱於滿血版，如何選擇模型取決於實際的應用場景，要求高的場景可能無法用蒸餾版本來滿足。」

一位不願具名的算力芯片廠商高管對《每日經濟新聞》記者表示：「AI行業從業者，不管是哪個環節的，包括模型公司、AI芯片公司等，都是圍繞一個三角形來做的，三角形的三個角分別是提高價值，提高或者保持用戶體驗，維持或者降低使用成本提高價值就是要能解決更多問題，能解決更難的問題；模型規模起來後，一般來說會降低用戶體驗、提高成本所以大家都在這個三角形中螺旋式地往上爬。」

圖片

圖片來源：受訪對象提供

大模型效率革命？
而FlashMLA，正是在大模型規模變大、能力變強後，在不降低用戶體驗的基礎上降低成本。

根據民生證券研報，傳統計算方式存在KV（鍵值）矩陣重復計算的問題，這不僅浪費了大量的計算資源，還會導致顯存消耗過大，影響模型的運行效率。而MLA技術解決了這個難題，它通過獨特的算法設計，減少了對KV矩陣的重復計算，大大降低了顯存的消耗。

需要註意的是，目前FlashMLA適配的是英偉達Hopper架構的GPU。若FlashMLA在CUDA生態大幅減少對顯存的占用，那麽未來應用到國內算力芯片領域，是否有助於「推理平價」，降低推理成本，推動國產算力芯片在推理領域的使用？

沐曦工作人員反饋：「這一周大家都忙著DeepSeek開源周的適配。」另據沐曦官方微信號：「沐曦技術團隊在FlashMLA開源後迅速響應，僅用2小時即完成與沐曦GPU的適配工作，並於當日將代碼提交至開源社區。」

此外，沐曦方面也表示：「FlashMLA通過MLA解碼優化與分頁KV緩存技術等顯著提升硬件利用率，可加速大語言模型解碼過程，有效提升響應速度與吞吐量，尤其適用於聊天機器人等實時生成場景。沐曦在適配中應用矩陣吸收算法將低秩投影融入Flash Attention 2核函數，在保證計算效率的同時顯著降低顯存占用。」

PPIO派歐雲王聞宇也表示：「FlashMLA對國內算力芯片具有很大的借鑒價值，通過技術創新，將FlashMLA移植到國內算力芯片上，也可以實現類似CUDA中的減少顯存占用和加速效果。」

事實上，除了通過算法領域的進步來減少顯存占用，也可以從芯片設計角度出發，通過定製化的芯片來增加顯存。

上述算力芯片公司高管稱：「核心問題是HBM（高帶寬存儲）每GB是DDR（雙倍速率同步動態隨機存儲器）的5x（5倍）價錢，用HBM來存所有權重不劃算。」

其給出的解決辦法是多級存儲。他表示：「需要模型來進一步改造，我認為比較理想的軟硬件，在未來應該是兩級或者多級存儲的，比如HBM和DDR都上，HBM更快，DDR更大，所以整個模型都存更大的DDR裏面，就像DeepSeek論文裏面寫的，他們每10分鐘刷新一批redundant expert（冗余專家），這批可以放在HBM裏面，用戶用的時候，大概率從這個redundant expert裏面取expert，這樣就可以既便宜又快了。」

關於MoE結構對算力硬件需求的變化，中金研報認為，可能帶來對處理器架構進一步的定製化需求，如更大的計算單元、和更高效的通信kernel（內核）相匹配的設計單元、近存計算單元等，利好DSA（領域專用架構）架構發展。

心得/評論：

moE其實是上世紀90年代就有的人工智能思路，transformer也是2017年google發佈的論文
根本不是OPENai專美的東西

這兩天deepseek集中發佈的新開源技術，更證明deepseek全方位的技術及研究能力
深入到AI算法、gpu性能徹底釋放等AI每一個軟硬件及其鏈接接領域

DeepSeek開源MoE訓練、推理EP通信庫DeepEP，真太Open了

deepseek哪裏象是一個兩三年的大模型公司，綜合實力之强，涉及領域之深之廣，OPENAI顯然落在下風，ds有AI華爲的感覺了

大家都説，deepseek是對NVDIA短空長多，只是deepseek武器庫太充足了，每次新武器出現就是一次短空新周期，長多不知道何時才能來了XD

--
雪壓枝頭低，雖低不着泥

一朝紅日出，依舊與天齊

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.52.214.97 (中國)
※ 作者: icrose 2025-02-26 01:10:30
※ 文章代碼(AID): #1dlVcArs (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1740503434.A.D76.html

噓 PureAnSimple: 好了啦超大悲可以了嗎？1F 02/26 01:11

推 freshman: 你各位模型卷起來，伺服器繼續買2F 02/26 01:13

推 allen0080: 拿來殺股票已經沒用了。3F 02/26 01:13

※ 編輯: icrose (123.52.214.97 中國), 02/26/2025 01:15:27

推 Alexstar: 蝦仁豬心的消息來惹4F 02/26 01:17

推 what5566: 鬼故事也太多了吧這感覺下禮拜會全噴回來5F 02/26 01:18

推 stcr3011: 開源讓大家檢視 XDD6F 02/26 01:18

噓 kausan: n卡買多少了？多買一點比較有機會贏7F 02/26 01:22

→ azhu: 好啦好啦贏贏贏隨便了8F 02/26 01:35

噓 nayeonmywife: 所以晶片荒在哪裡？中國而已？9F 02/26 01:38

→ Lowpapa: CloseAI真的超鳥10F 02/26 01:42

推 ImHoluCan: 中國伺服器GPU那麼猛，對岸遊戲GPU怎麼大家還用輝達呢？11F 02/26 01:49

噓 shiki1988: 中吹給的禮物謝謝都來不及了13F 02/26 01:50

推 kentano: 母公司2015就搞AI資產管理投資14F 02/26 01:59

推 liwae: 沒有錢就有沒有錢的解法不是每人玩魔物都要5090
steam小黃鴨這軟體很神奇15F 02/26 02:20

推 pkmu8426: AI終歸還是要靠腦袋17F 02/26 02:26

→ MTKer5566: 台灣有沒有機殼組裝訂單？18F 02/26 02:47

推 xeins: 找不金山在哪鏟子再多也是浪費電19F 02/26 03:41

噓 skyhawkptt: 阿里巴巴投資500億歐元布局AI與雲計算股價一度暴跌超9%20F 02/26 03:55

推 naligono: 又一個三角形大師22F 02/26 04:19

推 hcwang1126: 算力是很不夠的在美語和簡中溢出前23F 02/26 06:04

噓 baboosh: 盗版GPT 結案，下一題24F 02/26 07:10

推 doranako: deepseek現在不讓人儲值用api25F 02/26 07:15

推 capssan: 三個月前誰能想到真正的OpenAI居然在中國呵呵26F 02/26 07:46

推 keyneslan: 美國還是最強吧27F 02/26 07:46

推 s213092921: 美國的AI霸權已經沒了，只剩可超越的差距
CloseAI想搞壟斷賺取暴利的算盤已經破滅了28F 02/26 08:11

推 idletime: 開源但是快還要更快，好還要更好，所以鏟子繼續賣30F 02/26 08:18

噓 jamesho8743: 講啥小 deepseek不用NV? 不用NV了再來洗31F 02/26 08:21

噓 EZTW0000: 還不是繼續從新加坡進NV嘻嘻，這ID也不會有單，來工作32F 02/26 08:28

推 syk1104: OK,中又贏34F 02/26 08:29

推 ss218: 感覺AI說不訂快泡沫化了已經到了很多不懂的人出來裝專家侃侃而談的階段35F 02/26 08:36

噓 deepdish: 阿講一堆所以怎麼賺錢啊？花錢誰不會37F 02/26 08:37

→ stanleyplus: 又贏麻38F 02/26 08:56

噓 liliumeow: 華為是行業百草枯沒跟這個"真"openai相提並論39F 02/26 08:56

噓 johnny055279: 中吹去哪裡了？出來吹一下啊？40F 02/26 09:09

→ Artymo: 不錯，坐等其它開源模型跟進！41F 02/26 09:14

噓 r40491101: 噁42F 02/26 09:16

噓 zombiepigman: 盜版43F 02/26 09:31

噓 Syg: 繼續唬44F 02/26 09:34

→ billionaire: 支那人？45F 02/26 10:13

→ Mytsb2421: 對岸太厲害了46F 02/26 10:19

作者 icrose 的最新發文:

+61 [新聞] 臺積電據悉將放慢日本熊本廠的擴張速度 - Stock 板

作者: icrose 171.14.62.252 (中國) 2025-03-28 13:28:33

據報道，臺積電將放慢日本熊本芯片廠的擴張速度。心得/評論：根據日經新聞報道，台積電在日本投資放緩。拆東墻補西墻唄。希望不要引起日台貿易對抗，比如互加關稅啥的，最近這招很流行 …

128F 67推 6噓
+14 Re: [請益] 現在還有台積跌倒中小吃飽嗎？ - Stock 板

作者: icrose 171.14.62.252 (中國) 2025-03-28 09:46:11

73F 25推 11噓
-5 Re: [新聞] 台男勇闖中國找工作慘淪「深淵」！快餓 - HatePolitics 板

作者: icrose 171.14.62.252 (中國) 2025-03-28 09:03:43

22F 2推 7噓
Re: [新聞] 台男勇闖中國找工作慘淪「深淵」！快餓 - HatePolitics 板

作者: icrose 171.14.62.252 (中國) 2025-03-28 08:53:24

18F 4推 7噓
-8 [討論] 台股又瀑布嘍 - HatePolitics 板

作者: icrose 171.14.62.252 (中國) 2025-03-28 08:47:44

18F 1推 9噓

點此顯示更多發文記錄