作者 jackliao1990 (j)標題 [情報] DeepSeek繞過CUDA 自己優化底層編程語言時間 Wed Jan 29 19:55:49 2025
https://x.com/bookwormengr/status/1883355712191123666
關於DeepSeek的優化改進
許多人沒注意到的是:
DeepSeek也繞過了CUDA並使用底層編程語言PTX做優化
在輝達的PTX語言實際編譯流程中
CUDA代碼首先被編譯為PTX代碼
PTX代碼再被編譯為目標GPU架構的機器碼(SASS,Streaming ASSembler)
CUDA起到了提供高級編程接口和工具鏈的作用
可簡化開發者的工作
而PTX作為中間層充當高級語言和底層硬件間的橋樑
PTX允許進行細粒度優化
如寄存器分配和Thread/Warp級別的調整
這種編譯複雜又難維護
所以其他公司用的是CUDA這種高級編程語言
V3硬體效率之所以比Meta高出10倍
關鍵在於V3針對自己需求把132個流式多處理器(SMs)中的20個修改成負責服務器間通信
而不是計算任務
變相繞過了硬體對通信速度的限制
這點是用輝達的PTX實現的,不是CUDA
雖然DeepSeek把優化做到極致
然而同行表示
DeepSeek這種直接編寫PTX代碼的做法很難移植到不同型號的GPU
針對H100優化的代碼移到其他型號上效果打折扣也可能根本不work
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.132.195 (臺灣)
※ 作者: jackliao1990 2025-01-29 19:55:49
※ 文章代碼(AID): #1dcXT88h (Tech_Job)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738151752.A.22B.html
推 boards: 恐怖!DeepSeek遭以色列公司起底 可生成惡意程式竊取信用卡資料1F 101.10.44.11 台灣 01/29 19:58
→ MoonCode: 換 cpu 就重寫啊3F 1.160.226.8 台灣 01/29 19:58
推 hortl233: 這有點猛4F 111.82.225.117 台灣 01/29 19:59
※ 編輯: jackliao1990 (111.253.132.195 臺灣), 01/29/2025 20:04:44
推 royalpichu: ASIC 噴5F 114.25.13.223 台灣 01/29 20:05
→ jacky40383: 用PTX去優化速度早不是新聞了 就是維護跟編寫麻煩6F 1.175.5.92 台灣 01/29 20:07
推 neil0611: 厲害了 我的國8F 118.231.137.71 台灣 01/29 20:11
推 whizz: 無聊 又不是首次有人用ptx9F 42.79.252.164 台灣 01/29 20:14
推 X28338136X: 那做transformer 加速器有搞頭嗎10F 36.239.178.44 台灣 01/29 20:33
推 shyshyan: 資料都開源了是在恐怖三小11F 114.47.19.55 台灣 01/29 20:42
→ olozil: 翻譯:中國人礦便宜用人硬幹12F 223.141.133.141 台灣 01/29 21:18
推 johnjohnlin: 難移植的是後端吧,前端我怎麼記得CUDA 4早就改LLVM了13F 175.183.40.89 台灣 01/29 21:42
推 mercedeces: nv賺,還是用它的15F 60.198.174.240 台灣 01/29 22:10
推 MatTZerS: 請問 SM 用於通訊是什麼意思16F 36.239.250.136 台灣 01/29 22:12
推 abc21086999: 換個硬體就不能用很麻煩欸17F 114.136.151.105 台灣 01/29 22:30
推 c963852002: 黃大:不講武德改我晶片?18F 111.243.10.214 台灣 01/29 22:49
推 Aquarius126: 不用C語言改用ASM組合語言優化的概念19F 101.9.135.49 台灣 01/29 23:15
推 MisterSmile: 井蛙:看吧,他們就是用手刻21F 111.71.29.38 台灣 01/29 23:43
推 HiHiCano: 小量還可以啦 大量你換gpu要重寫會死人的22F 218.161.53.131 台灣 01/29 23:43
噓 IndeedGod: 一樓黑熊部隊嗎?這裡是科技版不是八卦版24F 114.32.217.213 台灣 01/29 23:43
推 ohohohya: 沒事 到時候真的證明抄襲chatgpt會哭的更大聲26F 118.171.90.24 台灣 01/29 23:57
→ tactics2100: 反正窮人又換不起 deepseek指定的硬體 有錢換的也是一批就買幾千台以上 然後操到爛 又不會頻繁更換硬體規格接著再頻繁改寫28F 203.204.69.197 台灣 01/30 01:14
推 zxp9505007: CUDA開發方便啊 但優化還是得取捨32F 24.7.63.0 美國 01/30 01:35
→ musashi023: ds繞過CUDA直接寫PTX很厲害嗎 PTX對於ds來說不就只是當成另一種語言而已33F 119.14.115.109 台灣 01/30 02:49
→ otaku690: 做cuda優化的都會碰PTX吧...36F 216.228.112.21 美國 01/30 04:19
噓 pig2014: 太吹,靠底層語言優化這種事也能拿來吹是三小,那大家都改寫C不就飛上天了?軟體開發發展至今會往高階語法移動不是沒有原因的,因為開發流程相較於算力需求更重要。現在問題在於nv硬體資源成本過高或是存在屏障才有這種鳥需求,等未來算力足夠或是發展到異質訓練的情況時,這東西突然就武功全廢了37F 123.195.185.38 台灣 01/30 06:30
→ tactics2100: 你這種說法就像廠商開發UE引擎然後開發出黑神話悟空 你就說有什麼好吹的46F 203.204.69.197 台灣 01/30 07:54
推 stocktonty: 就2B鉛筆超頻啊XDDD49F 116.89.139.191 台灣 01/30 08:42
→ xiemark: cudnn效率不是最佳50F 1.200.26.114 台灣 01/30 09:24
噓 w180112: 支語滾51F 180.218.6.19 台灣 01/30 09:33
噓 NexusPrime: 講的好像其他公司不懂PTX一樣52F 49.229.172.104 泰國 01/30 09:36
→ bnn: 繞是一定能繞 使用者習慣要不要改53F 220.136.202.56 台灣 01/30 10:00
推 kaltu: 不是繞過中層C寫底層ASM,是業界都用高層語言 Java 跨平台的時候直接寫無法移植的中層C,換張卡就要重寫一遍,復用性有限
除非你這間公司只玩一張顯卡的生命週期就打算收攤,否則這種問題應該是改進tool chain,第一次編譯和第二次編譯的編譯器最佳化策略,而不是跳過第一次編譯器人肉compile然後新的顯卡架構出來整間公司的軟體資產蒸發
但如果DS真的只是拿偷來的GPT權重蒸餾來重新包裝成自己做的的話,的確是可以只幹這一票騙到補助和VC之後跑路
那也可以理解為什麼開源這麼乾脆,因為根本不需要為公司的未來性著想54F 100.8.245.106 美國 01/30 10:33
推 a1234567289: 樓上… 所謂的蒸餾不是拿權重.. 是拿GPT的輸出入當資料訓練71F 101.12.151.128 台灣 01/30 11:18
→ Lordaeron: 拿CHATGPT 的輸出,這樣的費用要多?73F 111.241.161.153 台灣 01/30 12:19
推 annboy: 蒸餾可以想成是拿大模型的
input output去背答案74F 114.137.197.253 台灣 01/30 12:52
→ tactics2100: 簡單來說 deepseek 就是開 血輪眼或是 金輪法王 用小無相神功 催動少林72絕技
更正 鳩摩智
補充 血輪眼是後天自己開發出來的76F 203.204.69.197 台灣 01/30 13:04
→ guteres: 最幹的是openai和MS吧,花了一堆錢和智慧財產權的費用,被人蒸餾去用然後再開源。81F 42.73.126.244 台灣 01/30 13:29
→ tactics2100: 一堆文學作家也抗議 openai 蒸餾他們的創作啊84F 203.204.69.197 台灣 01/30 13:34
推 lolpklol0975: 護城河CUDA 被繞過去?86F 101.12.163.70 台灣 01/30 14:51
噓 musashi023: 不要在說什麼繞過去了 PTX還是nv家的 到底繞過去了什麼 這篇標題就在亂寫87F 116.89.142.202 台灣 01/30 15:03
噓 ellight: 講的好像PTX是啥跨世紀發明
PTX就是N卡上面的低階語言而已90F 1.34.153.180 台灣 01/30 15:27
→ tactics2100: 所以對岸以C++語言寫出黑神話悟空你也會嗆C++又不是啥跨世紀發明?基努李維出演駭客任務 你也會嗆攝影機又不是啥跨世紀發明嗎?92F 203.204.69.197 台灣 01/30 16:12
推 tomet: 確實沒什麼好吹的,時間會證明96F 114.137.199.65 台灣 01/30 16:56
→ physicsdk: 跟死忠仔沒什麼好討論的 邏輯0分的論述看了會降智97F 114.34.77.14 台灣 01/30 17:12
--