看板 Stock
作者 LDPC (Channel Coding)
標題 Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高
時間 Sun Jan 26 13:15:59 2025


目前就在旁邊吃瓜觀望@@ 成本這種本就是用開源後的可以拿已有的模型去當輔助下降成本

最常見作法就是拿gpt-4o當judge或者當數據產生器 去精煉數據集 如果再沒有gpt-4o

情況下 很多高質量資料去產生就花很錢 最經點例子就是LLaVa 一個博士班學生 用gpt-4o
去產生高質量多模態數158k 極小量數據集 用8xA100 1天時間 就幹爆之前所有
多模態大模型 能打贏saleforce的一間大公司堆出來的多模態BLIP-2模型
這傢伙精髓站就是在gpt-4模型巨人的肩膀上

資料的quality會影響大模型 而資料可以透過開源高質量模型去萃取
如果再套用COT 這些都可以繼續進化 paper有些細節像是數據集這類如何精煉
反而可能會是一個重要一環 但大家都會藏這類細節 @@/

2025現在大家都殺到LLM Agent去了 LLM刷模型任務分數熱潮有點下降
大部分都跑去搞LLM決策部分 和COT (思考鏈) 多步驟分析任務
像是waymo自駕端對端的決策都搞了一個EMMA 用Gemini 去往上蓋
(這時候自駕公司有自己的很強的LLM就很有用了 隨手不負責預測亞麻zoox會拿自家
LLM或anthropic來搞end-2-end多模態)

然後LLM Agent如果要放在機器人和自駕
一定得on-device 因為雲端延遲太慢 風險高 所以1B~4B這陣子的on-device模型
能力也在不斷突破 所以on-device LLM不太會在是AI-PC 除非是屬於私密資料等應用場景
而edge/on-devcie AI 可能突破點會在機器人

自駕的趨勢之後會跟LLM走上同陣線 在某個時間點 等閉源LLM開始時 就是差不多AI模型
的盡頭開始產業化 也許端對端LLM決策 可以強化視覺上標籤數據不足 (不確定這點
但直覺上認為 思考練LLM Agent可以降低場景車用數據量..QQ 基於模型泛化能力)
這會給其他車廠追上特斯拉的機會 特斯拉自身的LLM可來自grok 而3D基礎模型
foundation model 像是李飛飛的空間模型 有一定機會能幫助自駕 可以直接融合LLM
產生端對端多模態 而李飛飛又跟狗家走很近 所以想單賭個股 可以賭賭看狗家


--
順帶一提 LLM Agent在寫code部分越來越噁心了 強烈建議不要去當碼農..QQ
機器人題材就是跟LLM Agent有關 只要注意誰能做LLM Agent軟硬體部分就好

狗家的現在佈局就是拿Gemini去瘋狂蓋各種下游任務: 自駕 AR眼鏡 搜尋 多模態
語音 翻譯 Youtube 廣告 消費 地圖 商家產品 這些多樣性因為自家公司的資料特殊性
現在有點佔上風

股點就是買Big 7 + 台積 @@/


※ 引述《iaminnocent (人生無常)》之銘言:
: 剛剛看FB,發現有個中國的作家對於Deepseek的作文水平感到驚訝,用了相同問題,以王家
: 衛的電影風格去撰寫標題為人生何處不相逢的散文,來分別問CHATGPT-O1跟Deepseek-R1
: ChatGPT-O1:
: https://i.imgur.com/T2jN9hZ.jpeg
: Deepseek-R1:
: https://i.imgur.com/IitIbR0.jpeg
: 我是覺得Deepseek的回答好像有點純堆砌王家衛的電影名台詞的感覺,通篇王家衛感,但是
: 不知道在說甚麼
: ChatGPT 在最後有點出散文標題,內容也比較有切合標題
: 這應該可以當作兩者的能力小比拼吧?
: --------
: 補:
: 我也有用4O用相同問題問過,我覺得寫得比O1跟R1還好
: https://i.imgur.com/7DN4Dz9.jpeg
: 這滿神奇的,O1應該是ChatGPT 最強的模型,但是寫散文我覺得沒有4O寫得好
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.228.63.38 (臺灣)
: ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737858242.A.BEE.html
: 推 s213092921  : 重點是Deepseek背後的成本只有ChatGPT的20分之1      01/26 10:34
: → iaminnocent : 確實,訓練成本這件事情蠻令人訝異的,OpenAi也宣    01/26 10:41
: → iaminnocent : 布O3-mini將免費了                                 01/26 10:41
: → TaiwanUp    : 如果不知道是台詞 R1有故事感但無邏輯 結尾有蛇年感  01/26 10:44
: 推 breathair   : 只代表對於演算法大科技也要花大錢挖人              01/26 10:45
: → breathair   : 來搞了,算力的投資不會減少,不然等你              01/26 10:45
: → breathair   : 演算法追上,算力又落後了怎辦?                    01/26 10:45
: 推 strlen      : r1實際用遠不如抬面上的啦 只有評測嚇人 無庸質疑    01/26 10:55
: → TaiwanUp    : O1比較像沒有人生經驗學生寫 可以再tune一段小故事   01/26 10:55
: → strlen      : 但deepseek重點在它開源 還公開論文 好耶 作功德 誰  01/26 10:55
: → strlen      : 不愛?載回來用免錢 改免錢的 中國人要作功德當然好  01/26 10:56
: → TaiwanUp    : R1就每段都小故事 恐怕就是直接從劇本拼湊出來的     01/26 10:56
: 推 mamorui     : pretrain的成本占總成本7-9成,R1是只管posttrain    01/26 10:58
: → mamorui     : ,R1高成本會嚇死人。                              01/26 10:58
: 推 mamorui     : 然後是DeepSeek-V3宣稱557萬,但strawberry幾個r也   01/26 11:03
: → mamorui     : 會錯的跟其他一模一樣, 如果pretrain全部自己的資   01/26 11:03
: → mamorui     : 料怎麼會錯                                        01/26 11:03
: 推 s213092921  : http://i.imgur.com/NWWWmUD.jpg                    01/26 11:04
: 推 mamorui     : 簡單說,成本漂亮那就不要有那麼多別的模型的影子    01/26 11:07
: → mamorui     : 。                                                01/26 11:07
: → iaminnocent : 其實樓上有點出問題,pretrain的預標數據集才是最    01/26 11:08
: → iaminnocent : 貴的,這些可能都是美國公司花大錢去做的            01/26 11:08
: → iaminnocent : pretrain資料集需要人工介入標記,這個東西貴鬆鬆    01/26 11:08
: 推 mamorui     : 我沒有說不能吹能力,但成本就誇張了,我想看的是D   01/26 11:11
: → mamorui     : eepSeek從pretrain就是土法煉鋼,那才叫真的沒花這   01/26 11:11
: → mamorui     : 麼多成本。                                        01/26 11:11
: 推 mamorui     : 我沒看那麼多文章,如果有人找到paper解釋DeepSeek   01/26 11:16
: → mamorui     :  v3為什麼strawberry的r幾個錯的跟其他模型一模一    01/26 11:16
: → mamorui     : 樣是理所當然,而且預訓練是很純的資料(這家公司    01/26 11:16
: → mamorui     : 自己收集的資料、沒有借助其他LLM產生好資料 =》     01/26 11:16
: → mamorui     : 準備好資料是預訓練之常識)                        01/26 11:16
: 推 y800122155  : 從Transformer到GPT到ChatGPT等LLM,不都是一直堆疊  01/26 11:16
: → y800122155  : 在前人的成果? 現在DS發表用RL訓練不就只是換一種疊  01/26 11:16
: → y800122155  : 法? 自己要發布論文發布技術本來就是願意給別人用讓  01/26 11:16
: → y800122155  : 產業一起推進,在那邊吵什麼別人在哪個階段沒花到錢  01/26 11:16
: → y800122155  : 不公平有啥意義?                                   01/26 11:16
: → mamorui     : 做到上述兩項,那我就真的給這家鼓掌                01/26 11:16
: 推 woker       : 中國出產品走向是中低成本市場。沒有一定要當頂尖    01/26 11:17
: → woker       : 但cp值可能不錯                                    01/26 11:17
: → icexice     : deepseek的回答真的好王家衛XD                      01/26 11:17
: → TaiwanUp    : V3的排名還是差4o(11月版)較遠 跟4o(五月版)較近     01/26 11:19
: 推 mamorui     : 沒說他們沒花錢,重點前人pretrain花多少,嘲笑前    01/26 11:19
: → mamorui     : 人砸大錢,DeepSeek應該pretrain的資料總該是全部    01/26 11:19
: → mamorui     : 都自己的、沒有用其他LLM生成的,有人要背書嗎?     01/26 11:19
: → TaiwanUp    : 中低成本4o再開放一點權限給免費版就有了            01/26 11:20
: → mamorui     : 有人要幫DeepSeek背書pretrain的資料準備嗎          01/26 11:20
: 推 y800122155  : 所以是DS的工程師還是老闆自己出來"嘲笑"嗎? 現實就  01/26 11:24
: → y800122155  : 是如果別人能重現 DS R1,在算力巨大差異下可以直接  01/26 11:24
: → y800122155  : 加碼做到 R10、R100、R1000,到時DS花的500萬也是一  01/26 11:24
: → y800122155  : 樣丟到水裡                                        01/26 11:24
: 推 mamorui     : 我們看的是總成本,只要找到證明背書pretrain,雖    01/26 11:24
: → mamorui     : 然正確率差一點,這成本就真的是今年最神的,很簡    01/26 11:24
: → mamorui     : 單。                                              01/26 11:24
: → strlen      : https://tinyurl.com/3dfs2j8k 楊立昆都說話了 這就  01/26 11:24
: → strlen      : 站在前人肩膀上發展 但也開源沒有藏 所以很棒 稱讚   01/26 11:25
: → strlen      : 成本怎麼樣無所謂啦 他都要作功德了 一塊成本都是賺  01/26 11:25
: → strlen      : 阿祖就是號召大家AI都來作功德 變成今天這樣很合理   01/26 11:26
: 推 mamorui     : 是啊 我對於佛心沒意見 XD                          01/26 11:26
: → TaiwanUp    : DS的預訓練要用上微信用戶聊天訊息 可能會比較霸氣   01/26 11:26
: → strlen      : 誰不曉得中國最厲害的就是魔改別人的東西?          01/26 11:26
: → strlen      : 但deepseek算有良心了公開魔改方法 過去一堆垃圾 偷  01/26 11:27
: → mamorui     : 學術界是齊心討論,可沒酸前人                      01/26 11:27
: → strlen      : 人家的 營利就算了 還反告別人 嘻嘻                 01/26 11:27
: → mamorui     : 我都直接拿strawberry看是不是資料同源 XDDD         01/26 11:28
: → strlen      : 老實講 你有GPU有伺服 抓r1下來自己調一調開API 它   01/26 11:28
: → strlen      : 也不能拿你怎樣 這樣還不好?                       01/26 11:28
: → jatj        : 好啦 1/20 1/20 阿就比較爛啊 阿就買不到算力啊      01/26 11:29
: 推 mamorui     : API就可以串接了 繼續拿資料才是目的                01/26 11:29
: 推 mamorui     : 開源的原因很好懂 我之前整合資料庫 免費的最popul   01/26 11:31
: → mamorui     : ar的Postgres會支援 其他免費的就再說               01/26 11:31
: → mamorui     : 所以知道為什麼要開源碼 市占是真的很重要           01/26 11:32
: → mamorui     : 因為公司可以決定支援的順序                        01/26 11:32
: 推 wangm4a1    : 站在巨人肩膀上 科技正常現象                       01/26 11:33
: 推 Enzofulgura : 看完覺得Deepseek比較懂得王家衛XD                  01/26 11:39
: → iaminnocent : 但是文章內容跟標題完全沒關系XDD                   01/26 11:42
: → s860703     : 講這麼多 美股續漲                                 01/26 11:49
: 推 tradeent    : DeepSeek寫得比較好                                01/26 11:50
: → tradeent    : http://i.imgur.com/c9C1WzU.jpg                    01/26 11:50
: 推 Liberl      : 股癌的台股美股電報群已經有很多大神分析過了        01/26 11:53
: → Liberl      : 去那邊看就好了                                    01/26 11:54
: → Liberl      : 或是Miula的臉書也有討論                           01/26 11:54
: 推 toulio81    : 中國公司很多的低成本都是假象,要不就是用品質實    01/26 11:54
: → toulio81    : 際上無法穩定達標的產品充數,要不就是政府補貼導    01/26 11:54
: → toulio81    : 致的低成本,歐美無法學後者,而前者更是一條死路    01/26 11:54
: 推 tradeent    : 請問樓上怎麼加電報群                              01/26 11:55
: → iaminnocent : tradent大,因為我是限定用O1跟R1這兩個來進行,如   01/26 11:56
: → iaminnocent : 果用4O跟V3,也會有不一樣結果,這蠻特別的,我也    01/26 11:56
: → iaminnocent : 覺得4O寫的比O1好                                  01/26 11:56
: → iaminnocent : 以下是4O寫的,我反而覺得寫得比O1還好              01/26 11:59
: → iaminnocent : https://i.imgur.com/7DN4Dz9.jpeg                  01/26 11:59
: → iaminnocent : 最後那句「真好,人生何處不相逢」有震驚到我,這    01/26 11:59
: → iaminnocent : 個還是在O1之前我先用4O寫的                        01/26 11:59
: → iaminnocent : 但因為我想說要比較兩個最強的,就以O1比R1,但是    01/26 12:00
: → iaminnocent : 我覺得寫散文反而4O好於O1                          01/26 12:00
: 推 mamorui     : o1是推理型,以r1為例,我問r1不清楚的先問v3、再    01/26 12:01
: → mamorui     : 啟動r1,r1就突然知道了                            01/26 12:01
: ※ 編輯: iaminnocent (125.228.63.38 臺灣), 01/26/2025 12:02:48
: → iaminnocent : 得到結論,王家衛的文字用理論是不行的XD要用感情    01/26 12:04
: 推 mamorui     : 如果是AGI,就不會有能力差異,表現如何是穩定的,   01/26 12:05
: → mamorui     : 雖然還沒有AGI。 現在看到LLM會出並存的系列,就當   01/26 12:05
: → mamorui     : 做遊戲角色各種族差異,要想好先用誰再用誰,AI的    01/26 12:05
: → mamorui     : 思考跟記憶是仿人腦(非電腦),所以可以交錯問。    01/26 12:05
: 推 mamorui     : 像r1就是一定要推理,關掉才能切到V3                01/26 12:06

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)
※ 作者: LDPC 2025-01-26 13:15:59
※ 文章代碼(AID): #1dbSKHbZ (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737868561.A.963.html
sdbb: 99nvdl
Btw,GooG tsm,which better?
GG VS. 積積1F 01/26 13:21
感覺都可以賭啊 狗家可以問TQQQ王 TSM還得看川普的心情吧@@?
※ 編輯: LDPC (76.21.72.78 美國), 01/26/2025 13:36:02
jack1218: 請問現在有甚麼好用的寫code用的LLM agent呀4F 01/26 13:35
https://reurl.cc/Q5gdNO
banque: 現在Big 7中幾個增加一堆資本支出建數據中心
還沒找到具體的應用回收成本的方法
就面臨超便宜還開源的模型競爭
這消息很難解讀成繼續投資Big 7的利好吧5F 01/26 13:38
QQ BIG5會用裁員降數據中心成本(扣掉老黃果家) 所以帳面上還是很好看
據說接下來一個月內 麻家軟家會開始砍人 阿祖是用intense of year 來捲走人力
Altair: 1128寫程式不再是金飯碗 美國軟體工程師職缺5年腰斬9F 01/26 13:39
allen0519: 這篇講的最專業 給推!! 同樣的問題問chatgpt跟gemini雖然答案整體差異不大 但格式跟思路並不同 問deepseek有種熟悉感 特別像chatgpt 或許真的被拿來當教練10F 01/26 13:44
junior020486: FANNG+,TSM無腦多13F 01/26 13:46
tsukirit: Big7個屁,誰要買垃圾貧果14F 01/26 13:47
lpmybig: Fanng gogogo15F 01/26 13:49
Roger5566: 既然AIPC沒有市場 蘋果前途黯淡可以空了16F 01/26 13:49
GinginDenSha: 推 專業17F 01/26 13:57
※ 編輯: LDPC (76.21.72.78 美國), 01/26/2025 14:12:37
create8: 碼農失業潮,幹18F 01/26 14:12
kanx: 也要記得買HBM, 現代美光  三星?19F 01/26 14:14
CorkiN: 個人的看法 雖然消費者端是一部份目標但現階段對巨頭們來說AI是因為能增加”生產力/人”才瘋狂投資
投入AI基建生產力++人力需求—
巨頭並沒有沒回收成本 是已經在回收成本
巨頭內部已經在用AI降低自己的生產成本20F 01/26 14:23
littenVenus: tsm只要來個大地震就崩惹=.=25F 01/26 14:27
CorkiN: 這兩三年巨頭們裁員的消息不斷 但營收還是持續向上 那不就也證明投入AI基建生產力已經在增加了嗎26F 01/26 14:27
littenVenus: 窩長官們前幾天還說今年只要壓雞雞就能躺著賺 什麼都不用做28F 01/26 14:28
CorkiN: 倒是NV這幾年都在擴張台灣辦公室一直招人 真的猛30F 01/26 14:28
littenVenus: ps 他們是反指標喔31F 01/26 14:28
CorkiN: 軟體開發的開源生態剛好給了AI大量的資料訓練 讓碼農AI能進步快速解答
*多打了解答兩個字32F 01/26 14:29
ck326: 營收往上是因為各種漲價好嗎zzzz35F 01/26 14:31
mamorui: QQ 沒錯 LDPC大最可靠了36F 01/26 14:33
Eliad: meta和巨頭其實冗員很多,mets快4萬人年薪超過1200萬,裁個2萬人,一年就省快3000億
應該用力裁37F 01/26 14:43
pp520: 看來看去,這篇最專業 !!40F 01/26 15:06
Chilloutt: 廢狗快噴41F 01/26 15:15
strlen: 才兩年 就可以拿設計圖直接產code 再兩年 我看整個系統講幾句話就直接生出來 設計順便也整合 還可以讓你選風格...碼農末日不遠矣.......42F 01/26 15:25
ejnfu: 資深碼農實際coding時間可能沒有30%
不用這麼緊張45F 01/26 15:47
noahlin: Google理論上資料最多 但基本的翻譯現在還是明顯比GPT差,機翻的感覺還是很明顯
AAPL營收已經漲不動了 eps卡在6上下三年了
碼農一定還是需要 但門檻越來越高 缺越來越少 厲害的一個可以抵十個用不誇張47F 01/26 15:56
clecer: Apple ai整個落隊還看不到起色,只能吃老本了52F 01/26 16:00
[圖]
 
[圖]
aspirev3: QQQ 七巨頭比重高和有機會包到AI新創IPO 有料嗎55F 01/26 16:22
TaiwanUp: Apple要做到軟智硬整合 就看怎麼取捨了56F 01/26 16:46
JasonX5566: 質量57F 01/26 16:52
jim543000: 很明顯你是馬農等級 也非半導體專業58F 01/26 17:27
fernmmm: 比較好奇為什麼Google 要特別叫狗家是有什麼原因嗎59F 01/26 17:34
sdbb: GG狗家都是obov 的創意61F 01/26 17:41
qxpbyd: 翻譯看領域吧 瑟瑟翻譯 Gemini exp跟GPT4o不相上下前提是你要用CoT prompt62F 01/26 17:46
Fuji: 內容很專業!結論很粗爆!推64F 01/26 18:04
loveadu: 99 ASIC65F 01/26 18:06
ookimoo: 算法會演進 但是無法帶動整個景氣循環 只能說到這更無法改變供需之間的關係66F 01/26 18:09
Jeff1989: 人人都是碼農的概念68F 01/26 18:10
ice1015: 因為估狗69F 01/26 18:16
mamorui: 我現在最大疑問是DeepSeek卻無法整合V3跟Search,真的超奇怪的,理論上Search的資料跟GPT無關,他們可以輕鬆突破才對。70F 01/26 18:21
y800122155: 阿婆=Apple 這個更有創意更好笑73F 01/26 18:25
mamorui: DS既然找到後訓練突破,沒能力整合Search進V3?
https://imgur.com/mXir9XT
AGI的路終究要整合,DeepSeek下一步該推出整合了才74F 01/26 18:26
[圖]
TaiwanUp: 本地端開源搜尋引擎: Meilisearch, Woosh78F 01/26 19:01
spirit119: 這個解釋很好懂79F 01/26 19:05
TaiwanUp: Typesense, Elasticsearch 可以整合看看80F 01/26 19:05
jerrychuang: 99MU81F 01/26 19:07

--
作者 LDPC 的最新發文:
點此顯示更多發文記錄