看板 Stock
作者 LimYoHwan (gosu mage)
標題 [情報] 50美元訓練出媲美DeepSeek R1
時間 Thu Feb  6 16:56:06 2025



標題:

李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型

來源:
Futu

網址:

https://tinyurl.com/ydrtdbu8

內文:

李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名
叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe
ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0
 Flash Thinking Experimental提煉出來的。



https://i.imgur.com/kFg9GjU.jpeg
[圖]

斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法,被稱為 S1


S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1

推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。

S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力
,甚至可以媲美 Reinforcement Learning(強化學習)。


OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好
的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間?

S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法:

核心思想:

如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力?

方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率


結果證明,這種方法比 OpenAI o1-preview 還要好!

最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍
然很強!

此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。

論文下載

https://arxiv.org/pdf/2501.19393


--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.195.108 (臺灣)
※ 作者: LimYoHwan 2025-02-06 16:56:06
※ 文章代碼(AID): #1df7afZl (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738832169.A.8EF.html
※ 同主題文章:
[情報] 50美元訓練出媲美DeepSeek R1
02-06 16:56 LimYoHwan
※ 編輯: LimYoHwan (42.72.195.108 臺灣), 02/06/2025 16:56:28
joygo: 好便宜!!!1F 02/06 16:56
[圖]
kkes0001: ?3F 02/06 16:56
justin818281: 不用錢,我的腦就是R14F 02/06 16:57
ohohohya: 完了 地動山搖5F 02/06 16:57
kotorichan: R1很強6F 02/06 16:57
kkes0001: Gamini 2.0不是剛出不到一天7F 02/06 16:57
appledick: 提煉再提煉8F 02/06 16:58
Akitsukineko: 你肥肥團隊9F 02/06 16:58
Subzero0000: 哈哈 過一陣子 會不會出現0.5美元就可以搞定10F 02/06 16:58
LeMirage2000: 變伏特加了吧這個11F 02/06 16:58
jimmy12332: 這啥 白菜價? 韭菜價?12F 02/06 16:58
IBIZA: 多想幾秒鐘 你可以不要...13F 02/06 16:58
kotorichan: AI白菜價14F 02/06 16:59
hsu0612: openai又要發作了嗎15F 02/06 16:59
zerro7: 真的白菜價了16F 02/06 16:59
appledick: 要遍地AI了17F 02/06 16:59
b2060027830: 那誰要當第一個訓練的?18F 02/06 17:00
appledick: 然後發現 這AI我根本很少用到啊19F 02/06 17:00
PureAnSimple: 丸子   沒有最便宜 只有更便宜  ㄟ唉末日20F 02/06 17:00
guagua1101: 這很常見…不用大驚小怪21F 02/06 17:01
zerro7: 結果最後大家都去別人的水桶裡面釣魚耶 笑死22F 02/06 17:01
a64186401: 丸子 原來搞AI那麼便宜23F 02/06 17:01
sheep2009: 以後沒人想開源了 大家自己買nv晶片訓練大模型24F 02/06 17:02
boomberm: 太唬爛了,能信嗎25F 02/06 17:02
mumeisuki: 卷爛26F 02/06 17:02
grtfor: 你釣他水桶裡的魚,我釣你水桶裡的魚,大隊接力27F 02/06 17:02
Feting: 看來ai普及速度極快,終端裝置準備大噴發QQ28F 02/06 17:03
MVPkobe: 看不懂29F 02/06 17:03
ymlin0331: NV我們不要了30F 02/06 17:03
pieceioriX: 你蒸餾我的蒸餾 近親繁殖?31F 02/06 17:03
gk1329: 蹦蹦32F 02/06 17:03
zxcv100: 50鎂有點太唬爛了33F 02/06 17:03
ChikanDesu: 阿不就是都在巨頭開發模型基礎上才做得出來34F 02/06 17:04
keio5566: NV又要一根了嗎?35F 02/06 17:04
bala045: 這應該算微調嗎36F 02/06 17:04
tsubasawolfy: gemini :我的魚!!!!37F 02/06 17:05
ImHoluCan: 連顯卡都不用38F 02/06 17:05
gk1329: 多想幾秒 連線請教GPT39F 02/06 17:05
Like5566Like: NV利空40F 02/06 17:05
gk1329: 轉包的概念 cc41F 02/06 17:05
bnn: NV又要崩崩 TSM崩崩崩42F 02/06 17:06
k1222: 崩43F 02/06 17:06
ImHoluCan: 第一個訓練的都低能兒44F 02/06 17:06
HisVol: 麥當勞工讀生一天都不只要50鎂45F 02/06 17:07
fywei: 蒸餾你的蒸餾的蒸餾的蒸餾的蒸餾46F 02/06 17:07
goodhike: 直接蒸餾別人的模型沒有版權問題嗎?47F 02/06 17:07
gn7722: 越來越吹越來越騙,超白吃的哈哈哈48F 02/06 17:07
bnn: 工程進步本來就是一直站在前人肩膀上往上一點一點爬49F 02/06 17:07
ImHoluCan: 50美元我看是員工上廁所的錢50F 02/06 17:07
lnonai: 真的筆電手機可以跑崩個毛線,超級換機潮要來了51F 02/06 17:07
bjoe: 雲計算.....52F 02/06 17:07
l04: 自己人說好不打自己人53F 02/06 17:07
b2060027830: 喜迎換機潮54F 02/06 17:07
ImHoluCan: 蒸餾來蒸餾去,啊誰要當花錢的人呢?55F 02/06 17:08
andy79323: 甲甲越想越不對56F 02/06 17:08
capirex: NV掰57F 02/06 17:08
deann 
deann: 蒸餾Gemini 那答案到底會多爛..58F 02/06 17:08
saisai34: ds崩潰 @v@59F 02/06 17:08
tenshou: 李飛飛是美國國家工程學會院士超強60F 02/06 17:08
knives: 可以的吧61F 02/06 17:08
fourkg: 急了嗎62F 02/06 17:08
bnn: 這個核心是Edge AI應用端啊 推理端負責第一個花錢63F 02/06 17:08
Jeff1989: 下次剩5毛了64F 02/06 17:08
nose123: 用AI來訓練AI的概念????????????65F 02/06 17:08
pilen185: 卷起來66F 02/06 17:09
tenshou: 翻譯成史丹佛大學比較多人知道67F 02/06 17:09
hohoho2010: 白菜價AI68F 02/06 17:10
philip571: 三思而後行的體現69F 02/06 17:10
Roger5566: 成本是這樣算的嗎~~ 越來越唬爛了70F 02/06 17:10
tenshou: 李飛飛是美國公民從小就移民美國了71F 02/06 17:10
DALUGI: 改天就會進步到無料訓練72F 02/06 17:10
ppav0v0v: Ai要變成熟製程了73F 02/06 17:11
i376ers: 蒸餾74F 02/06 17:11
ImHoluCan: Gemini 很智障,蒸餾錯誤了75F 02/06 17:11
detective14r: 前面花錢的都白癡76F 02/06 17:11
Leo4891: 也是要靠蒸餾  人家模型不給你用  是要省到哪77F 02/06 17:11
a64186401: 看那些巨頭怎麼回收 訓練越來越便宜78F 02/06 17:12
vincent0911x: 開捲囉~~~79F 02/06 17:12
yoyodiy 
yoyodiy: 99%蒸餾難度最高  可能要花大錢80F 02/06 17:12
camoont: 香81F 02/06 17:12
applejone: 以後只要釣別人水桶內的好魚就好了 那誰要當漁翁?82F 02/06 17:13
jumilin927: 崩崩崩83F 02/06 17:13
CTTSAI: 捲起來 軟體快沒毛利了84F 02/06 17:14
QooSnow: (只有更便宜,)(沒有最便宜!)(嘻嘻。)85F 02/06 17:14
b1izzard2000: 多想幾秒 大賺百美86F 02/06 17:14
pujos: 意料中的事87F 02/06 17:14
sweetantt: 越來越扯了88F 02/06 17:14
ImHoluCan: Gemini2.0 很智障,蒸餾失敗吧,要蒸也要GPT89F 02/06 17:15
idernest: 4090 50收90F 02/06 17:15
turndown4wat: 幹成白菜價91F 02/06 17:16
schula: 站在巨巨的巨巨的肩膀上,指數型成長92F 02/06 17:16
tigerzz3: 好了啦93F 02/06 17:17
harpuia: 丸子,AI要變成白菜價了QQ94F 02/06 17:17
kotorichan: 削價競爭95F 02/06 17:17
madeinheaven: 笑死 以後大家都用蒸餾法從別人模型裡學習96F 02/06 17:17
schula: 蒸出來取好的精煉也算效率提升吧(?97F 02/06 17:18
ezorttc: 人工智慧(x)人工智障(o)98F 02/06 17:19
windblood: 這樣誰要當第一個 XDD 你蒸餾我的蒸餾99F 02/06 17:19
arcysaint: 我相信傑文斯悖論800F 02/07 06:44
EKman: 這篇文一定會製造出一波韭菜亂砍,嘻嘻801F 02/07 07:36
yyls123: NVDA繼續跌802F 02/07 08:16
crazylag: 笑死 所以設備人力都不用錢?803F 02/07 08:24
koll: 好啊 大家都等開源來提煉就好了804F 02/07 08:36

--
作者 LimYoHwan 的最新發文:
點此顯示更多發文記錄