※ 本文轉寄自 ptt.cc 更新時間: 2025-01-26 23:09:13
看板 Stock
作者 標題 Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高
時間 Sun Jan 26 13:15:59 2025
目前就在旁邊吃瓜觀望@@ 成本這種本就是用開源後的可以拿已有的模型去當輔助下降成本
最常見作法就是拿gpt-4o當judge或者當數據產生器 去精煉數據集 如果再沒有gpt-4o
最常見作法就是拿gpt-4o當judge或者當數據產生器 去精煉數據集 如果再沒有gpt-4o
情況下 很多高質量資料去產生就花很錢 最經點例子就是LLaVa 一個博士班學生 用gpt-4o
去產生高質量多模態數158k 極小量數據集 用8xA100 1天時間 就幹爆之前所有
多模態大模型 能打贏saleforce的一間大公司堆出來的多模態BLIP-2模型
這傢伙精髓站就是在gpt-4模型巨人的肩膀上
資料的quality會影響大模型 而資料可以透過開源高質量模型去萃取
如果再套用COT 這些都可以繼續進化 paper有些細節像是數據集這類如何精煉
反而可能會是一個重要一環 但大家都會藏這類細節 @@/
2025現在大家都殺到LLM Agent去了 LLM刷模型任務分數熱潮有點下降
大部分都跑去搞LLM決策部分 和COT (思考鏈) 多步驟分析任務
像是waymo自駕端對端的決策都搞了一個EMMA 用Gemini 去往上蓋
(這時候自駕公司有自己的很強的LLM就很有用了 隨手不負責預測亞麻zoox會拿自家
LLM或anthropic來搞end-2-end多模態)
然後LLM Agent如果要放在機器人和自駕
一定得on-device 因為雲端延遲太慢 風險高 所以1B~4B這陣子的on-device模型
能力也在不斷突破 所以on-device LLM不太會在是AI-PC 除非是屬於私密資料等應用場景
而edge/on-devcie AI 可能突破點會在機器人
自駕的趨勢之後會跟LLM走上同陣線 在某個時間點 等閉源LLM開始時 就是差不多AI模型
的盡頭開始產業化 也許端對端LLM決策 可以強化視覺上標籤數據不足 (不確定這點
但直覺上認為 思考練LLM Agent可以降低場景車用數據量..QQ 基於模型泛化能力)
這會給其他車廠追上特斯拉的機會 特斯拉自身的LLM可來自grok 而3D基礎模型
foundation model 像是李飛飛的空間模型 有一定機會能幫助自駕 可以直接融合LLM
產生端對端多模態 而李飛飛又跟狗家走很近 所以想單賭個股 可以賭賭看狗家
--
順帶一提 LLM Agent在寫code部分越來越噁心了 強烈建議不要去當碼農..QQ
機器人題材就是跟LLM Agent有關 只要注意誰能做LLM Agent軟硬體部分就好
狗家的現在佈局就是拿Gemini去瘋狂蓋各種下游任務: 自駕 AR眼鏡 搜尋 多模態
語音 翻譯 Youtube 廣告 消費 地圖 商家產品 這些多樣性因為自家公司的資料特殊性
現在有點佔上風
股點就是買Big 7 + 台積 @@/
※ 引述《iaminnocent (人生無常)》之銘言:
: 剛剛看FB,發現有個中國的作家對於Deepseek的作文水平感到驚訝,用了相同問題,以王家
: 衛的電影風格去撰寫標題為人生何處不相逢的散文,來分別問CHATGPT-O1跟Deepseek-R1
: ChatGPT-O1:
: https://i.imgur.com/T2jN9hZ.jpeg
: Deepseek-R1:
: https://i.imgur.com/IitIbR0.jpeg
: 我是覺得Deepseek的回答好像有點純堆砌王家衛的電影名台詞的感覺,通篇王家衛感,但是
: 不知道在說甚麼
: ChatGPT 在最後有點出散文標題,內容也比較有切合標題
: 這應該可以當作兩者的能力小比拼吧?
: --------
: 補:
: 我也有用4O用相同問題問過,我覺得寫得比O1跟R1還好
: https://i.imgur.com/7DN4Dz9.jpeg
: 這滿神奇的,O1應該是ChatGPT 最強的模型,但是寫散文我覺得沒有4O寫得好
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.228.63.38 (臺灣)
: ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737858242.A.BEE.html
: 推 s213092921 : 重點是Deepseek背後的成本只有ChatGPT的20分之1 01/26 10:34
: → iaminnocent : 確實,訓練成本這件事情蠻令人訝異的,OpenAi也宣 01/26 10:41
: → iaminnocent : 布O3-mini將免費了 01/26 10:41
: → TaiwanUp : 如果不知道是台詞 R1有故事感但無邏輯 結尾有蛇年感 01/26 10:44
: 推 breathair : 只代表對於演算法大科技也要花大錢挖人 01/26 10:45
: → breathair : 來搞了,算力的投資不會減少,不然等你 01/26 10:45
: → breathair : 演算法追上,算力又落後了怎辦? 01/26 10:45
: 推 strlen : r1實際用遠不如抬面上的啦 只有評測嚇人 無庸質疑 01/26 10:55
: → TaiwanUp : O1比較像沒有人生經驗學生寫 可以再tune一段小故事 01/26 10:55
: → strlen : 但deepseek重點在它開源 還公開論文 好耶 作功德 誰 01/26 10:55
: → strlen : 不愛?載回來用免錢 改免錢的 中國人要作功德當然好 01/26 10:56
: → TaiwanUp : R1就每段都小故事 恐怕就是直接從劇本拼湊出來的 01/26 10:56
: 推 mamorui : pretrain的成本占總成本7-9成,R1是只管posttrain 01/26 10:58
: → mamorui : ,R1高成本會嚇死人。 01/26 10:58
: 推 mamorui : 然後是DeepSeek-V3宣稱557萬,但strawberry幾個r也 01/26 11:03
: → mamorui : 會錯的跟其他一模一樣, 如果pretrain全部自己的資 01/26 11:03
: → mamorui : 料怎麼會錯 01/26 11:03
: 推 s213092921 : http://i.imgur.com/NWWWmUD.jpg 01/26 11:04
: 推 mamorui : 簡單說,成本漂亮那就不要有那麼多別的模型的影子 01/26 11:07
: → mamorui : 。 01/26 11:07
: → iaminnocent : 其實樓上有點出問題,pretrain的預標數據集才是最 01/26 11:08
: → iaminnocent : 貴的,這些可能都是美國公司花大錢去做的 01/26 11:08
: → iaminnocent : pretrain資料集需要人工介入標記,這個東西貴鬆鬆 01/26 11:08
: 推 mamorui : 我沒有說不能吹能力,但成本就誇張了,我想看的是D 01/26 11:11
: → mamorui : eepSeek從pretrain就是土法煉鋼,那才叫真的沒花這 01/26 11:11
: → mamorui : 麼多成本。 01/26 11:11
: 推 mamorui : 我沒看那麼多文章,如果有人找到paper解釋DeepSeek 01/26 11:16
: → mamorui : v3為什麼strawberry的r幾個錯的跟其他模型一模一 01/26 11:16
: → mamorui : 樣是理所當然,而且預訓練是很純的資料(這家公司 01/26 11:16
: → mamorui : 自己收集的資料、沒有借助其他LLM產生好資料 =》 01/26 11:16
: → mamorui : 準備好資料是預訓練之常識) 01/26 11:16
: 推 y800122155 : 從Transformer到GPT到ChatGPT等LLM,不都是一直堆疊 01/26 11:16
: → y800122155 : 在前人的成果? 現在DS發表用RL訓練不就只是換一種疊 01/26 11:16
: → y800122155 : 法? 自己要發布論文發布技術本來就是願意給別人用讓 01/26 11:16
: → y800122155 : 產業一起推進,在那邊吵什麼別人在哪個階段沒花到錢 01/26 11:16
: → y800122155 : 不公平有啥意義? 01/26 11:16
: → mamorui : 做到上述兩項,那我就真的給這家鼓掌 01/26 11:16
: 推 woker : 中國出產品走向是中低成本市場。沒有一定要當頂尖 01/26 11:17
: → woker : 但cp值可能不錯 01/26 11:17
: → icexice : deepseek的回答真的好王家衛XD 01/26 11:17
: → TaiwanUp : V3的排名還是差4o(11月版)較遠 跟4o(五月版)較近 01/26 11:19
: 推 mamorui : 沒說他們沒花錢,重點前人pretrain花多少,嘲笑前 01/26 11:19
: → mamorui : 人砸大錢,DeepSeek應該pretrain的資料總該是全部 01/26 11:19
: → mamorui : 都自己的、沒有用其他LLM生成的,有人要背書嗎? 01/26 11:19
: → TaiwanUp : 中低成本4o再開放一點權限給免費版就有了 01/26 11:20
: → mamorui : 有人要幫DeepSeek背書pretrain的資料準備嗎 01/26 11:20
: 推 y800122155 : 所以是DS的工程師還是老闆自己出來"嘲笑"嗎? 現實就 01/26 11:24
: → y800122155 : 是如果別人能重現 DS R1,在算力巨大差異下可以直接 01/26 11:24
: → y800122155 : 加碼做到 R10、R100、R1000,到時DS花的500萬也是一 01/26 11:24
: → y800122155 : 樣丟到水裡 01/26 11:24
: 推 mamorui : 我們看的是總成本,只要找到證明背書pretrain,雖 01/26 11:24
: → mamorui : 然正確率差一點,這成本就真的是今年最神的,很簡 01/26 11:24
: → mamorui : 單。 01/26 11:24
: → strlen : https://tinyurl.com/3dfs2j8k 楊立昆都說話了 這就 01/26 11:24
: → strlen : 站在前人肩膀上發展 但也開源沒有藏 所以很棒 稱讚 01/26 11:25
: → strlen : 成本怎麼樣無所謂啦 他都要作功德了 一塊成本都是賺 01/26 11:25
: → strlen : 阿祖就是號召大家AI都來作功德 變成今天這樣很合理 01/26 11:26
: 推 mamorui : 是啊 我對於佛心沒意見 XD 01/26 11:26
: → TaiwanUp : DS的預訓練要用上微信用戶聊天訊息 可能會比較霸氣 01/26 11:26
: → strlen : 誰不曉得中國最厲害的就是魔改別人的東西? 01/26 11:26
: → strlen : 但deepseek算有良心了公開魔改方法 過去一堆垃圾 偷 01/26 11:27
: → mamorui : 學術界是齊心討論,可沒酸前人 01/26 11:27
: → strlen : 人家的 營利就算了 還反告別人 嘻嘻 01/26 11:27
: → mamorui : 我都直接拿strawberry看是不是資料同源 XDDD 01/26 11:28
: → strlen : 老實講 你有GPU有伺服 抓r1下來自己調一調開API 它 01/26 11:28
: → strlen : 也不能拿你怎樣 這樣還不好? 01/26 11:28
: → jatj : 好啦 1/20 1/20 阿就比較爛啊 阿就買不到算力啊 01/26 11:29
: 推 mamorui : API就可以串接了 繼續拿資料才是目的 01/26 11:29
: 推 mamorui : 開源的原因很好懂 我之前整合資料庫 免費的最popul 01/26 11:31
: → mamorui : ar的Postgres會支援 其他免費的就再說 01/26 11:31
: → mamorui : 所以知道為什麼要開源碼 市占是真的很重要 01/26 11:32
: → mamorui : 因為公司可以決定支援的順序 01/26 11:32
: 推 wangm4a1 : 站在巨人肩膀上 科技正常現象 01/26 11:33
: 推 Enzofulgura : 看完覺得Deepseek比較懂得王家衛XD 01/26 11:39
: → iaminnocent : 但是文章內容跟標題完全沒關系XDD 01/26 11:42
: → s860703 : 講這麼多 美股續漲 01/26 11:49
: 推 tradeent : DeepSeek寫得比較好 01/26 11:50
: → tradeent : http://i.imgur.com/c9C1WzU.jpg 01/26 11:50
: 推 Liberl : 股癌的台股美股電報群已經有很多大神分析過了 01/26 11:53
: → Liberl : 去那邊看就好了 01/26 11:54
: → Liberl : 或是Miula的臉書也有討論 01/26 11:54
: 推 toulio81 : 中國公司很多的低成本都是假象,要不就是用品質實 01/26 11:54
: → toulio81 : 際上無法穩定達標的產品充數,要不就是政府補貼導 01/26 11:54
: → toulio81 : 致的低成本,歐美無法學後者,而前者更是一條死路 01/26 11:54
: 推 tradeent : 請問樓上怎麼加電報群 01/26 11:55
: → iaminnocent : tradent大,因為我是限定用O1跟R1這兩個來進行,如 01/26 11:56
: → iaminnocent : 果用4O跟V3,也會有不一樣結果,這蠻特別的,我也 01/26 11:56
: → iaminnocent : 覺得4O寫的比O1好 01/26 11:56
: → iaminnocent : 以下是4O寫的,我反而覺得寫得比O1還好 01/26 11:59
: → iaminnocent : https://i.imgur.com/7DN4Dz9.jpeg 01/26 11:59
: → iaminnocent : 最後那句「真好,人生何處不相逢」有震驚到我,這 01/26 11:59
: → iaminnocent : 個還是在O1之前我先用4O寫的 01/26 11:59
: → iaminnocent : 但因為我想說要比較兩個最強的,就以O1比R1,但是 01/26 12:00
: → iaminnocent : 我覺得寫散文反而4O好於O1 01/26 12:00
: 推 mamorui : o1是推理型,以r1為例,我問r1不清楚的先問v3、再 01/26 12:01
: → mamorui : 啟動r1,r1就突然知道了 01/26 12:01
: ※ 編輯: iaminnocent (125.228.63.38 臺灣), 01/26/2025 12:02:48
: → iaminnocent : 得到結論,王家衛的文字用理論是不行的XD要用感情 01/26 12:04
: 推 mamorui : 如果是AGI,就不會有能力差異,表現如何是穩定的, 01/26 12:05
: → mamorui : 雖然還沒有AGI。 現在看到LLM會出並存的系列,就當 01/26 12:05
: → mamorui : 做遊戲角色各種族差異,要想好先用誰再用誰,AI的 01/26 12:05
: → mamorui : 思考跟記憶是仿人腦(非電腦),所以可以交錯問。 01/26 12:05
: 推 mamorui : 像r1就是一定要推理,關掉才能切到V3 01/26 12:06
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)
※ 作者: LDPC 2025-01-26 13:15:59
※ 文章代碼(AID): #1dbSKHbZ (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737868561.A.963.html
※ 同主題文章:
01-24 19:13 ■ [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋
01-24 21:59 ■ Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋
01-25 03:00 ■ Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預
01-25 09:15 ■ Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋
01-25 11:46 ■ Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋
01-25 22:54 ■ Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋
● 01-26 13:15 ■ Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高
01-26 19:27 ■ Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋
推 : 99nvdl1F 01/26 13:21
→ : Btw,GooG tsm,which better?
→ : GG VS. 積積
感覺都可以賭啊 狗家可以問TQQQ王 TSM還得看川普的心情吧@@?→ : Btw,GooG tsm,which better?
→ : GG VS. 積積
※ 編輯: LDPC (76.21.72.78 美國), 01/26/2025 13:36:02
推 : 請問現在有甚麼好用的寫code用的LLM agent呀4F 01/26 13:35
https://reurl.cc/Q5gdNO→ : 現在Big 7中幾個增加一堆資本支出建數據中心5F 01/26 13:38
→ : 還沒找到具體的應用回收成本的方法
→ : 就面臨超便宜還開源的模型競爭
→ : 這消息很難解讀成繼續投資Big 7的利好吧
QQ BIG5會用裁員降數據中心成本(扣掉老黃果家) 所以帳面上還是很好看→ : 還沒找到具體的應用回收成本的方法
→ : 就面臨超便宜還開源的模型競爭
→ : 這消息很難解讀成繼續投資Big 7的利好吧
據說接下來一個月內 麻家軟家會開始砍人 阿祖是用intense of year 來捲走人力
→ : 1128寫程式不再是金飯碗 美國軟體工程師職缺5年腰斬9F 01/26 13:39
推 : 這篇講的最專業 給推!! 同樣的問題問chatgpt跟gemin10F 01/26 13:44
→ : i雖然答案整體差異不大 但格式跟思路並不同 問deeps
→ : eek有種熟悉感 特別像chatgpt 或許真的被拿來當教練
→ : i雖然答案整體差異不大 但格式跟思路並不同 問deeps
→ : eek有種熟悉感 特別像chatgpt 或許真的被拿來當教練
→ : FANNG+,TSM無腦多13F 01/26 13:46
噓 : Big7個屁,誰要買垃圾貧果14F 01/26 13:47
推 : Fanng gogogo15F 01/26 13:49
推 : 既然AIPC沒有市場 蘋果前途黯淡可以空了16F 01/26 13:49
推 : 推 專業17F 01/26 13:57
※ 編輯: LDPC (76.21.72.78 美國), 01/26/2025 14:12:37推 : 碼農失業潮,幹18F 01/26 14:12
推 : 也要記得買HBM, 現代美光 三星?19F 01/26 14:14
推 : 個人的看法 雖然消費者端是一部份目標但現階段對巨20F 01/26 14:23
→ : 頭們來說AI是因為能增加”生產力/人”才瘋狂投資
→ : 投入AI基建生產力++人力需求—
→ : 巨頭並沒有沒回收成本 是已經在回收成本
→ : 巨頭內部已經在用AI降低自己的生產成本
→ : 頭們來說AI是因為能增加”生產力/人”才瘋狂投資
→ : 投入AI基建生產力++人力需求—
→ : 巨頭並沒有沒回收成本 是已經在回收成本
→ : 巨頭內部已經在用AI降低自己的生產成本
推 : tsm只要來個大地震就崩惹=.=25F 01/26 14:27
→ : 這兩三年巨頭們裁員的消息不斷 但營收還是持續向上26F 01/26 14:27
→ : 那不就也證明投入AI基建生產力已經在增加了嗎
→ : 那不就也證明投入AI基建生產力已經在增加了嗎
→ : 窩長官們前幾天還說今年只要壓雞雞就能躺著賺 什麼28F 01/26 14:28
→ : 都不用做
→ : 都不用做
→ : 倒是NV這幾年都在擴張台灣辦公室一直招人 真的猛30F 01/26 14:28
→ : ps 他們是反指標喔31F 01/26 14:28
→ : 軟體開發的開源生態剛好給了AI大量的資料訓練 讓碼32F 01/26 14:29
→ : 農AI能進步快速解答
→ : *多打了解答兩個字
→ : 農AI能進步快速解答
→ : *多打了解答兩個字
推 : 營收往上是因為各種漲價好嗎zzzz35F 01/26 14:31
推 : QQ 沒錯 LDPC大最可靠了36F 01/26 14:33
推 : meta和巨頭其實冗員很多,mets快4萬人年薪超過120037F 01/26 14:43
→ : 萬,裁個2萬人,一年就省快3000億
→ : 應該用力裁
→ : 萬,裁個2萬人,一年就省快3000億
→ : 應該用力裁
推 : 看來看去,這篇最專業 !!40F 01/26 15:06
推 : 廢狗快噴41F 01/26 15:15
推 : 才兩年 就可以拿設計圖直接產code 再兩年 我看整個42F 01/26 15:25
→ : 系統講幾句話就直接生出來 設計順便也整合 還可以讓
→ : 你選風格...碼農末日不遠矣.......
→ : 系統講幾句話就直接生出來 設計順便也整合 還可以讓
→ : 你選風格...碼農末日不遠矣.......
推 : 資深碼農實際coding時間可能沒有30%45F 01/26 15:47
→ : 不用這麼緊張
→ : 不用這麼緊張
推 : Google理論上資料最多 但基本的翻譯現在還是明顯比G47F 01/26 15:56
→ : PT差,機翻的感覺還是很明顯
→ : AAPL營收已經漲不動了 eps卡在6上下三年了
→ : 碼農一定還是需要 但門檻越來越高 缺越來越少 厲害
→ : 的一個可以抵十個用不誇張
→ : PT差,機翻的感覺還是很明顯
→ : AAPL營收已經漲不動了 eps卡在6上下三年了
→ : 碼農一定還是需要 但門檻越來越高 缺越來越少 厲害
→ : 的一個可以抵十個用不誇張
推 : Apple ai整個落隊還看不到起色,只能吃老本了52F 01/26 16:00
推 : QQQ 七巨頭比重高和有機會包到AI新創IPO 有料嗎55F 01/26 16:22
→ : Apple要做到軟智硬整合 就看怎麼取捨了56F 01/26 16:46
噓 : 質量57F 01/26 16:52
→ : 很明顯你是馬農等級 也非半導體專業58F 01/26 17:27
推 : 比較好奇為什麼Google 要特別叫狗家是有什麼原因嗎59F 01/26 17:34
→ : ?
→ : ?
推 : GG狗家都是obov 的創意61F 01/26 17:41
推 : 翻譯看領域吧 瑟瑟翻譯 Gemini exp跟GPT4o不相上下62F 01/26 17:46
→ : 前提是你要用CoT prompt
→ : 前提是你要用CoT prompt
推 : 內容很專業!結論很粗爆!推64F 01/26 18:04
→ : 99 ASIC65F 01/26 18:06
→ : 算法會演進 但是無法帶動整個景氣循環 只能說到這66F 01/26 18:09
→ : 更無法改變供需之間的關係
→ : 更無法改變供需之間的關係
→ : 人人都是碼農的概念68F 01/26 18:10
推 : 因為估狗69F 01/26 18:16
→ : 我現在最大疑問是DeepSeek卻無法整合V3跟Search,70F 01/26 18:21
→ : 真的超奇怪的,理論上Search的資料跟GPT無關,他們
→ : 可以輕鬆突破才對。
→ : 真的超奇怪的,理論上Search的資料跟GPT無關,他們
→ : 可以輕鬆突破才對。
推 : 阿婆=Apple 這個更有創意更好笑73F 01/26 18:25
推 : DS既然找到後訓練突破,沒能力整合Search進V3?74F 01/26 18:26
→ : https://imgur.com/mXir9XT
→ : AGI的路終究要整合,DeepSeek下一步該推出整合了才
→ : 對
→ : https://imgur.com/mXir9XT
→ : AGI的路終究要整合,DeepSeek下一步該推出整合了才
→ : 對
→ : 本地端開源搜尋引擎: Meilisearch, Woosh78F 01/26 19:01
推 : 這個解釋很好懂79F 01/26 19:05
→ : Typesense, Elasticsearch 可以整合看看80F 01/26 19:05
推 : 99MU81F 01/26 19:07
--
※ 看板: Stock 文章推薦值: 0 目前人氣: 0 累積人氣: 125
作者 LDPC 的最新發文:
- 目前就在旁邊吃瓜觀望@@ 成本這種本就是用開源後的可以拿已有的模型去當輔助下降成本 最常見作法就是拿gpt-4o當judge或者當數據產生器 去精煉數據集 如果再沒有gpt-4o 情況下 很多高質量 …81F 29推 2噓
- 31F 9推 7噓
- 20F 11推
- 台股找美國產業有連動性的比較安全 但從社群看產業分析 很容易收集到自身無法判別的 垃圾資訊 由其有些公司推的東西真的很謎 像群聯推的aiDAPTIV+那玩意都不知該怎樣吐 槽。。。 一個deepsp …66F 30推 1噓
- 35F 14推 2噓
點此顯示更多發文記錄
→
guest
回列表(←)
分享