看板 Stock
作者 Lushen (pttlushen)
標題 [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預
時間 Fri Jan 24 19:13:02 2025


原文標題:

Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋

原文連結:https://www.jiqizhixin.com/articles/2025-01-24-2
Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释 | 机器之心 工程师正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。 ...

 

發布時間:2025/01/24

記者署名:機器之心

原文內容:

「工程師正在瘋狂地分析 DeepSeek,試圖從中複製任何可能的東西。」

DeepSeek 開源大模型的陽謀,切切實實震撼著美國 AI 公司。

最先陷入恐慌的,似乎是同樣推崇開源的 Meta。

最近,有 Meta 員工在美國匿名職場社群 teamblind 上面發布了一個貼文。貼文提到,國內 AI 新創公司 DeepSeek 最近的一系列動作讓 Meta 的生成式 AI 團隊陷入了恐慌,因為在前者的低成本高歌猛進下,後者無法解釋自己的超高預算的合理性。

原文如下:

這一切始於 DeepSeek-V3,它在基準測試中就已經讓 Llama 4 落後。更糟的是那個「擁有 550 萬訓練預算的不知名中國公司」。

工程師們正在瘋狂地分析 DeepSeek,試圖從中複製任何可能的東西。這一點都不誇張。


管理階層擔心如何證明龐大的生成式 AI 組織的成本是合理的。當生成式 AI 組織中的每個「領導」的薪資都比訓練整個 DeepSeek-V3 的成本還要高,而我們有好幾十個這樣的「領導」時,他們要如何面對高層?

DeepSeek-R1 讓情況變得更加可怕。雖然我不能透露機密信息,但這些很快就會公開。

這本來應該是一個以工程為重點的小型組織,但是因為很多人想要參與進來分一杯羹,人為地膨脹了組織的招聘規模,結果每個人都成了輸家。

https://i.imgur.com/hKZ6h5W.png
[圖]

貼文中提到的 DeepSeek-V3 和 DeepSeek-R1 分別發佈於 2024 年 12 月 26 日和 2025 年 1 月 20 日。

其中,DeepSeek-V3 在發佈時提到,該模型在多項評測成績超越了Qwen2.5-72B 和Llama-3.1-405B 等其他開源模型,並在性能和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet 不分伯仲。

不過,更引人注目的是,這個參數量高達 671B 的大型語言模型訓練成本僅 558 萬美元。具體來說,它的預訓練過程竟然只用了 266.4 萬 H800 GPU Hours,再加上上下文擴展與後訓練的訓練,總共也只有 278.8 H800 GPU Hours。相比之下,Meta 的 Llama 3 系列模型的計算預算則多達 3930 萬 H100 GPU Hours—— 如此計算量足可訓練 DeepSeek-V3 至少 15 次。

https://i.imgur.com/mJn5POl.png
[圖]

而最近發布的 DeepSeek-R1 效能更猛 —— 在數學、程式碼、自然語言推理等任務上,它的效能比肩 OpenAI o1 正式版。而且模型在發布的同時,權重同步開源。很多人驚呼,原來 DeepSeek 才是真正的 OpenAI。 UC Berkeley 教授 Alex Dimakis 則認為, DeepSeek 現在已經處於領先位置,美國公司可能需要迎頭趕上了。

https://i.imgur.com/NLhp4Nj.png
[圖]

看到這裡,我們不難理解為何 Meta 的團隊會陷入恐慌。如果今年推出的 Llama 4 沒有點硬本事,他們「開源之光」的地位岌岌可危。

有人指出,其實該慌的不只 Meta,OpenAI、Google、Anthropic 又何嘗沒有受到挑戰。 「這是一件好事,我們可以即時看到公開競爭對創新的影響。」

https://i.imgur.com/gQ5fHDH.png
[圖]

還有人擔心起了英偉達的股價,表示「如果 DeeSeek 的創新是真的,那麼 AI 公司是否真的需要那麼多顯示卡?」

https://i.imgur.com/HIFcTx6.png
[圖]

不過,也有人質疑,DeepSeek 究竟是靠創新還是靠蒸餾 OpenAI 的模型取勝?有人回覆說,這可以從他們的發布的技術報告中找到答案。

https://i.imgur.com/HIFcTx6.png

目前,我們還無法確定貼文的真實性。

不知道 Meta 後續會如何回應,即將到來的 Llama 4 又會達到怎樣的表現。

心得/評論:

Meta工程師在TeamBlind(一個匿名的職涯討論區,需要經過公司Email驗證)爆料中國的DeepSeek對內部影響很大

DeepSeek R1訓練成本550萬美元 可能比一個Meta大頭的年薪還便宜

DeepSeek 這件事情也不光是中國自己在吹噓

看了一下 Twitter/Reddit 美國AI工業界、學術界反響非常大

DeekSeek 的母公司幻方量化產出 DeepSeek 的故事也在 Twitter 廣受討論

https://i.imgur.com/NLhp4Nj.png

DeepSeek R1 開源+論文公開應該會推進一波AI界的發展

DeepSeek 後續發展值得關注一下

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.55.152 (臺灣)
※ 作者: Lushen 2025-01-24 19:13:02
※ 文章代碼(AID): #1datN1_K (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737717185.A.FD4.html
pmes9866: 中又贏1F 01/24 19:14

DeepSeek 訓練成本低+跑起來的成本極低(硬體需求)

自己實際使用體感不覺得他贏 OpenAI

不過以成本場景來說真的是巨大的創新

美國知名的 AI 分析機構 Artificial Analysis

對 DeepSeek 的成本分析

https://i.imgur.com/0GRkj6Q.png
[圖]

agassi001: 股價該跌了吧2F 01/24 19:15
wts4832: too good to be true3F 01/24 19:15
moom50302: 贏了贏了都贏了4F 01/24 19:15
Plumpy: 贏麻了5F 01/24 19:16
s1612316: 花大錢還輸別人 是設備的問題還是人的問題6F 01/24 19:16
kenbbc12321: ai本來就可以減少運算,達到一樣的效果7F 01/24 19:18
lpmybig: 真實性先打問號8F 01/24 19:18

DeepSeek R1 程式碼、論文都開源+公開了

https://github.com/deepseek-ai/DeepSeek-R1
GitHub - deepseek-ai/DeepSeek-R1
[圖]
Contribute to deepseek-ai/DeepSeek-R1 development by creating an account on GitHub. ...

 

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
DeepSeek-R1/DeepSeek_R1.pdf at main ·  deepseek-ai/DeepSeek-R1 ·  GitHub
[圖]
Contribute to deepseek-ai/DeepSeek-R1 development by creating an account on GitHub. ...

 

appledick: 美國484真的滿廢的
難怪只能靠制裁來贏人了9F 01/24 19:18
lc85301: 美國的時代早就過去了11F 01/24 19:19
zhi5566: 輸了就在砍人啊12F 01/24 19:19
kuosos520: deepseek有開源,也有offline,鬼故事來了13F 01/24 19:20
aegis43210: 因為西台灣為了管制,一堆問題不能回答,自然也不算錯誤14F 01/24 19:20
※ 編輯: Lushen (36.229.55.152 臺灣), 01/24/2025 19:25:15
KrisNYC: DS就開源的  輸了就算了 裁部門 丟模型16F 01/24 19:22
furbyyeh: 硬體需求果然是吹的17F 01/24 19:22
KrisNYC: 拿DS去從頭開始而已18F 01/24 19:22
stlinman:  降本增效  遙遙領先 中國人可以贏兩次19F 01/24 19:22
rrazer: 中又贏 ,遙遙領先20F 01/24 19:22
momochacha: 沒空 阿祖現在忙著舔川普21F 01/24 19:22
KrisNYC: 你就當作花錢蓋了個蚊子館又拆掉 GDP增加了 就這樣寫一大篇不知道想幹嘛22F 01/24 19:22
Lowpapa: 美國早就輸慘了24F 01/24 19:23
godog: 看到某族群崩潰狂酸的樣子 就覺的好笑 哈哈哈25F 01/24 19:23
aegis43210: 只要慶豐帝仍在位,美國就不會輸26F 01/24 19:24
iamsosmart: 中國贏了,台積電嚇哭了,輝達沒有用了,美國七大科技股都淚奔了27F 01/24 19:24
huabandd: 整理重點好嗎29F 01/24 19:25

網景公司創始人(美國公司;世界第一個廣泛使用的瀏覽器)
Facebbok、eBay、HP 董事會成員
風投

Marc Andreessen

幫你整理了重點

https://i.imgur.com/SmUbN8M.png
[圖]

Deepseek R1 is one of the most amazing and impressive breakthroughs I’ve ever seen — and as open source, a profound gift to the world.

DeepSeek 翻譯:

https://i.imgur.com/5zX1uf2.png
[圖]

ImHoluCan: 亞洲專門搞詐騙的30F 01/24 19:26
poeoe: 中國本來在軟體就算強的 還能加班加到爆31F 01/24 19:26
strlen: 不就魔改技術很猛?不然當年GPT3怎麼不是中國開發32F 01/24 19:27
winsonpz: 看智障聳動標題就知道是中吹假新聞33F 01/24 19:27
zpeople0116: 歐美日常,幹輸人翻桌34F 01/24 19:28
winsonpz: 然後又一堆壯世代在那瞎講胡吹35F 01/24 19:29
ImHoluCan: 美國人很天真,很容易被詐騙,看看小米保時捷,那真的是保時捷嗎36F 01/24 19:29
spa41260: 算力過剩,丸子38F 01/24 19:29
pagenotfound: 上次在那邊吹中國突破5奈米的公司 已經屍骨無存了39F 01/24 19:29
matlab1106: 又要像電車一樣輸了就翻桌嗎?40F 01/24 19:29
ck326: 中吹日常,吹了半天強國還在通縮41F 01/24 19:30
ImHoluCan: 對岸要是真的,早就大吹特吹42F 01/24 19:30
asjh612: 沒有外媒新聞? 怎麼只有中國跟twitter來源43F 01/24 19:30
mic73528: 遙遙領先 雙贏就是中國贏兩次44F 01/24 19:31
Blastodern: 彎道超車吹了三十年還在超,這個彎道到底有多長啦,笑爛45F 01/24 19:31
[圖]
ImHoluCan: 小米蘇7=美國老邏輯=保時捷怕拉沒拉,但真的擺上台面真的是保時捷嗎48F 01/24 19:32
Dix123: 已經都開源了 怎麼還有人反智阿...50F 01/24 19:33
jacktypetlan: 完蛋 算力過剩 overbooking 台G NV攔腰斬都不夠
NV至少1/4膝蓋斬 歐印放空 台股一萬二見51F 01/24 19:33
kotorichan: 美國再挖角或制裁 就好53F 01/24 19:34
bella1815: 看到某族群自嗨的樣子就覺得好笑54F 01/24 19:34
INIKS: 美國創意,中國實作,中美如果真正合作,早就登陸火星了,可惜國家這個沒用的概念依然存在,地球村遙遙無期55F 01/24 19:34
※ 編輯: Lushen (36.229.55.152 臺灣), 01/24/2025 19:39:47
ImHoluCan: 當初嘴台積電,也大力挖台積電的大將,對啊晶圓廠可以生產啊,但真的能ㄧ直突破?58F 01/24 19:34
ck326: 開源又怎樣?笑死60F 01/24 19:35
poeoe: 開源就是全世界的人都能直接驗證 這也不是中國自己在吹啦61F 01/24 19:35
z23061542: OK收到 以放空美台股 大力ALL IN鹿谷63F 01/24 19:35
asjh612: 開源又怎樣 原po也沒覺得他贏openai啊64F 01/24 19:35
ImHoluCan: 詐騙集團,當然不能犯低接錯誤,你能看到的當然要給你看你想看的65F 01/24 19:36
kotorichan: 沒三小路用 中國直接武統是最有用的67F 01/24 19:36
asjh612: 自爽又贏 跟 開源 哪門子關係?68F 01/24 19:37
ImHoluCan: 笑死中國要是真的能搞出來,當初中芯肯定能搞出來69F 01/24 19:37
asjh612: 每個llm都在吹自己很強 實際體驗就是那死樣子70F 01/24 19:37
a12838910: 中國軟體很強啊 抖音 小紅書 台灣?71F 01/24 19:38
andy810306: 台灣給那狗屎薪資想要找誰寫軟體?笑死72F 01/24 19:38
aloness: 這本來就是 在等待程式架構進化,縮減算力73F 01/24 19:39
jasonfun44: 老早都去AWSGCP租就好,做LLM跟本不會賺錢74F 01/24 19:39
aloness: 舊的程式架構自然需要突破天際的算力75F 01/24 19:39
ImHoluCan: 對岸是小米蘇7保時捷,然後吹說你開保時捷嗎?76F 01/24 19:39
ck326: 台灣軟體很爛啊,應該說台灣沒有軟體,所以呢?77F 01/24 19:40
Dix123: 簡單來說 AI的這個嶄新的領域配上開源 本來就很容易做出超強的突破了 不一定是中國 美國隨時也會趕上78F 01/24 19:40
jasonfun44: 馬斯克也是吹80F 01/24 19:40
poeoe: 這其實也是好事 如果能讓需要的算力降低 那能省很多81F 01/24 19:40
Dix123: 你遙想個人電腦和網路剛開始的時候 駭客橫行的時候83F 01/24 19:40
bj45566: 股板無腦中黑:不管啦,中國只會抄襲而已而已啦,一定是偷美國的!原始碼都公開在網上了?不可能!看得到的人一定是眼睛孽障太重,我什麼都看不到!(嘶喊)84F 01/24 19:40
aloness: 中國軟體工程師戰力本來就不差87F 01/24 19:40
Dix123: 當你還在用數據機玩天堂的時候 可能想過幾年後馬上88F 01/24 19:41
※ 編輯: Lushen (36.229.55.152 臺灣), 01/24/2025 19:45:10
ImHoluCan: 對岸很多都是抄美國,卡卡西董嗎? 小米蘇7吹成保時捷89F 01/24 19:41
Dix123: 變月租吃到飽?91F 01/24 19:41
ixiuxiudan: 別急92F 01/24 19:41
asjh612: 怎會熱血親中的人在高潮啊93F 01/24 19:42
ImHoluCan: 對岸只會卡卡西,但真的有那個創意與技術? 接下來真的能持續?94F 01/24 19:42
s90002442: 完蛋 今天股價砍爛96F 01/24 19:42
kevinmeng2: 拿meta這垃圾比較就好像拿intel跟台積電比97F 01/24 19:42
peter98: META再裁個15%工程師吧98F 01/24 19:44
jinx5566: 突破AI臨界點了?99F 01/24 19:44
shorty5566: 砍capex幹嘛 好的模型算法+算力不是更飛天= =
除非你覺得AI已經發展到盡頭了 不然算力永遠都不夠849F 01/24 23:11
lon0623: 美國有些人事成本真的太高了,還有搞啥DEI851F 01/24 23:12
minazukimaya: 對啊 算法改進了效率變好 第一直覺當然是再放大模型852F 01/24 23:12
shorty5566: 好的算法+更強的算力那才是事半功倍 買越多省越多853F 01/24 23:13
minazukimaya: 或是再加訓練集吧 對BigTech來說...854F 01/24 23:13

--
作者 Lushen 的最新發文:
點此顯示更多發文記錄