Re: [情報] 50美元訓練出媲美DeepSeek R1 - Stock板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文轉寄自 ptt.cc 更新時間: 2025-02-07 11:03:44

看板 Stock

作者 DrTech (竹科管理處網軍研發人員)
標題 Re: [情報] 50美元訓練出媲美DeepSeek R1
時間 Fri Feb 7 08:14:36 2025

※ 引述《LimYoHwan (gosu mage)》之銘言：
: 標題：
: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
: 來源：
: Futu
: 網址：
: https://tinyurl.com/ydrtdbu8
: 內文：
: 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名
: 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe
: ek的R1等尖端推理模型類似。研究人員表示，s1是通過蒸餾法由谷歌推理模型Gemini 2.0
: Flash Thinking Experimental提煉出來的。
: https://i.imgur.com/kFg9GjU.jpeg
: 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法，被稱為 S1
: 。
: S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能！同時匹敵Deepseek R1
: 推理時間可控：S1 通過簡單的“Wait”機制，控制大模型的思考時間，提高推理能力。
: S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻，但它揭示了在推理時微調 AI 的潛力
: ，甚至可以媲美 Reinforcement Learning（強化學習）。
: OpenAI 和 DeepSeek 早期研究發現，AI 在回答問題時“思考得更久”，往往能得出更好
: 的答案。但過去並沒有清楚解釋：如何在推理階段控制 AI 的思考時間？
: S1 的創新點： S1 論文提供了推理時間擴展（Inference Scaling）的具體實現方法：
: 核心思想：
: 如何在不改變 AI 訓練過程的情況下，提高 AI 解決複雜問題的能力？
: 方法：讓 AI 在推理時“多想幾秒”，自動檢查自己的答案，從而減少錯誤，提高正確率
: ！
: 結果證明，這種方法比 OpenAI o1-preview 還要好！
: 最重要的是：而且只用了 1000 道題！這比一般 AI 訓練的數據少了 800 倍，但效果仍
: 然很強！
: 此外，該模型可以在筆記本電腦上運行，並且其訓練成本僅為 6 美元。
: 論文下載
: https://arxiv.org/pdf/2501.19393

連結或內文，完全是錯的。
根本是腦殘媒體在亂寫。與論文事實不符。

先說論文結論：

模型表現：
經過不斷的做實驗試錯，
終於從59000筆訓練資料中，

找到一組1000筆AI訓練資料，
可以在"部分考卷"上贏 OpenAI的一個很爛的模型，o1-preview。

其他考卷考出來的分數，依然慘輸給 deepseek-R1，ChatGPT-o1。

成本：不到50美元。
也是只看 fine-tune 1000題，一次的成本。

而且，試了不知道幾次，
終於找到一次，
可以在部分考卷上贏一個很爛的模型。

媒體文章中，忽略不計的成本，至少包含：

base模型訓練的成本(至少占成本99%)
研究人員不斷試錯找1000題的成本。
多組1000題，再用 Gemini 模型，產生fine-tune資料的成本。

其他錯誤資訊，媒體的內文寫：

研究人員表示，s1是通過蒸餾法由谷歌推理模型Gemini 2.0。

完全錯誤。原始論文寫：

先準備 59000筆訓練資料，在不斷的用各種方式，選1000筆資料，再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。

最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。

真的要亂寫，也要寫成蒸餾 Qwen2.5-32B的能力，而不是蒸餾 Gemini。

而且這種做法嚴格來說不叫蒸餾，叫fine-tune微調

結論：
研究沒問題，找到了一種成本較低的流程，可產生可思考模型。但效果很一般。

一堆外行人，連論文都不看，在造假新聞。
媲美OpenAI-o1，deepseek-r1，連論文都沒這樣寫，純媒體造假。

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.31.161 (臺灣)
※ 作者: DrTech 2025-02-07 08:14:36
※ 文章代碼(AID): #1dfL1kLr (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738887278.A.575.html

※ 同主題文章:

　 02-06 16:56 LimYoHwan. ■ [情報] 50美元訓練出媲美DeepSeek R1

　 02-06 17:16 tenshou. ■ Re: [情報] 50美元訓練出媲美DeepSeek R1

　 02-06 18:54 ImHoluCan. ■ Re: [情報] 50美元訓練出媲美DeepSeek R1

● 02-07 08:14 DrTech. ■ Re: [情報] 50美元訓練出媲美DeepSeek R1

→ fedona …

→ cafein : 讚2F 02/07 08:17

推 herculus6502: 反正這裏是股版3F 02/07 08:36

推 GOOGLEISGOD : 專業4F 02/07 08:42

推 saiiys : https://youtu.be/yD5Zdk79X68?si=EABsvto1BFTIzVA85F 02/07 08:45

推 AGODC : 這就如同酒精釀造工藝，一般不懂的人認知上它就是某6F 02/07 08:46
→ AGODC : 蒸餾原理，只是有加上一些前後加工的工序，本質上對
→ AGODC : 一般人來說用「蒸餾」這個辭最好理解啊，未來這種類
→ AGODC : 蒸餾或前後資料篩選再tune的東西會一籮筐，前面幾個
→ AGODC : 還分得出來差異，到後面出來幾百幾千個時，誰還分得
→ AGODC : 出來用哪個方法？反而叫蒸餾是一般人最好理解的

推 aaa80563 : 不然為什麼一堆-0.06的噴上天12F 02/07 08:48

推 maxangel : 台灣媒體就不讀書當然不會認真寫13F 02/07 08:50

推 Laviathan : 蒸餾不一定是監督式學習，但微調是監督式學習，樓14F 02/07 08:50
→ Laviathan : 上怎麼可以說都一樣叫蒸餾

→ wr : 簡單來說只要你能從六萬筆資料中找到那1000筆資料16F 02/07 08:51
→ wr : 你就可以弄出跟gemini很接近的能力
→ wr : 也就是說如何找到那1000筆資料的技術應該可以賣錢

推 dani1992 : 按你描述是從Gemini蒸餾微調Qwen沒錯啊19F 02/07 08:54

→ wr : 至於訓練出來的東西就隨便應用端去天馬行空了20F 02/07 08:54

推 gift1314520 : 笑不給他資料庫看他怎麼學習21F 02/07 08:58

推 LDPC : 大大建議你自刪這就是蒸餾。是你自己不懂22F 02/07 09:01

推 p122607 : 這也是蒸餾的一種…23F 02/07 09:05

噓 Lowpapa : 整篇誤導24F 02/07 09:06

推 laidawn : 推，看不懂25F 02/07 09:06

推 LDPC : 作者自己paper都說 1000題從gemini thinking distil26F 02/07 09:08
→ LDPC : l
→ LDPC : 這已經不是你第一次亂嗆結果自己搞錯=_=
→ LDPC : paper 第一頁右下方就講distilled from gemini thi
→ LDPC : nking experimental

推 ab4daa : 穩31F 02/07 09:12

推 kungwei : 專業給推32F 02/07 09:13

推 y800122155 : 貼出來騙人下車的啊33F 02/07 09:13

推 LDPC : 哪來專業..=_=34F 02/07 09:14

推 oopFoo : 必須推。s1來蹭r1的。s1論文根本就不實際，也不實用35F 02/07 09:27
推 oopFoo : s1這篇論文只是來騙篇數的。phd的悲哀。

→ emind : 論文主旨是test-time compute 也放在標題了。Ilya37F 02/07 09:40
→ emind : 在2024 Neurips 也講inference time compute.
→ emind : 宣傳成本什麼的很好笑

→ DrTech : 這篇論文的distilled意思，與前幾年大家在做transfo40F 02/07 10:14
→ DrTech : rmer模型時的蒸餾，完全不同意思。是違反學術常規定
→ DrTech : 義，自創的定義，意思是用Gemini 模型，生成新的訓
→ DrTech : 練資料。硬扯沒意義，論文實際上跑出來的分數就是大
→ DrTech : 輸OpenAI-o1或deepseek-r1。新聞寫媲美本來就是亂寫
→ DrTech : 。

※ 看板: Stock　文章推薦值: 0 目前人氣: 0 累積人氣: 139　

作者 DrTech 的最新發文:

+19 Re: [情報] 50美元訓練出媲美DeepSeek R1 - Stock 板

作者: DrTech 42.72.31.161 (台灣) 2025-02-07 08:14:36

連結或內文，完全是錯的。根本是腦殘媒體在亂寫。與論文事實不符。先說論文結論：模型表現：經過不斷的做實驗試錯，終於從59000筆訓練資料中，找到一組1000筆AI訓練資料，可以在" …

45F 20推 1噓
+149 Re: [新聞] 為養家棄學！台達電員工卻遭霸凌身亡 - Tech_Job 板

作者: DrTech 42.73.74.171 (台灣) 2024-12-23 11:15:31

非常認同上一篇shrines的心態與觀點。這兩年，我也常常懷疑自己是否被霸凌了。一直觀察自我的心態變化就是： 1. 認真工作，超出常規以外的認真。 2. 持續被主管否定。 3. 懷疑主管有問題 …

298F 153推 4噓
+242 [心得] 我將台達電列為永不面試黑名單 - Tech_Job 板

作者: DrTech 42.73.74.171 (台灣) 2024-12-22 12:20:44

我用實際行動，來表達最近台達電員工自殺的事件的不滿。我的實際行動就是：永久將台達電，列入我的黑名單。個人永遠不去面試與工作。還在公司內的也該思考一下，是否有更好的選擇公司有人跳樓，或有爭 …

501F 268推 26噓
+5 [心得] 青埔對旅居各國經驗的人，有不同價值 - home-sale 板

作者: DrTech 42.73.22.146 (台灣) 2024-11-18 00:55:28

137F 34推 29噓
+4 Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不 - Soft_Job 板

作者: DrTech 42.72.189.178 (台灣) 2024-11-03 16:09:00

22F 4推

點此顯示更多發文記錄

分享網址: 複製

DispBBS

回到看板(←)《Stock》

→

guest

x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享