Re: [情報] 50美元訓練出媲美DeepSeek R1 - Stock板

作者 dansy (Eye Taiwan)
標題 Re: [情報] 50美元訓練出媲美DeepSeek R1
時間 Thu Feb 6 21:09:21 2025

大家都被訓練成本給迷惑
說穿了訓練AI就像培養人才

真正重點是"教材內容正確性"，以及"學習成果的評價回饋" (就是老師要改作業)
對應的是"輸入資料正確性"，並且存在"有效的回饋機制來修正權重"

資料部分雖然OpeAI/Gemini基本已經將網際網路上公開資料爬完
但還有許多真正有用的專利知識屬於商業機密
但只要是機密就不會公開，所以各家AI模型壓根沒有學習的機會
(這也是多數公司想用開源DS做本地訓練&部署的原因--保密)

而回饋機制則需要建立一個能夠足夠精確的虛擬真實世界系統
才能讓AI在其中去進行各種試錯，得到回饋進而學習
但這明顯互相矛盾
人類正是因為知識不足，故無法打造出一個"足夠真實的虛擬世界"給AI做回饋用

所以這就造成現有的大模型能創作、能畫畫、能唱歌
但對於多數需要物理、邏輯能力的進階用戶並無明顯助益
畢竟專家都會讀paper/google，大模型只是再幫你濃縮整理一次公開資料罷了
即便再怎麼加強推理過程機制，但缺乏足夠真實的虛擬系統給AI試錯

也就沒有回饋作用，起不到讓AI持續修正權重(進化)的作用

簡而言之現階段即便奧特曼再怎麼嘴砲，孫正義有再多錢砸

訓練出來的LLM終究是google濃縮器、PPT產生器、詩詞吟唱器罷了

※ 引述《ImHoluCan (爺)》之銘言：
: 好的
: google 要不要把昨天財報上的說750億設備支出
: 變成50美元支出？
: 李飛飛能直接表明蒸餾Google
: Google 最好不知道還給你研究所蒸餾
: 那昨天Google 財報2025還要支出750億呢？
: 還是明天台灣派人去蒸餾meta Google chatGPT?
: 看看他們要不要給蒸餾
: ※ 引述《LimYoHwan》之銘言
: : 標題：
: : 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
: : 來源：
: : Futu
: : 網址：
: : https://tinyurl.com/ydrtdbu8
: : 內文：
: : 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名
: : 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe
: : ek的R1等尖端推理模型類似。研究人員表示，s1是通過蒸餾法由谷歌推理模型Gemini 2.0
: : Flash Thinking Experimental提煉出來的。
: : https://i.imgur.com/kFg9GjU.jpeg
: : 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法，被稱為 S1
: : 。
: : S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能！同時匹敵Deepseek R1
: : 推理時間可控：S1 通過簡單的“Wait”機制，控制大模型的思考時間，提高推理能力。
: : S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻，但它揭示了在推理時微調 AI 的潛力
: : ，甚至可以媲美 Reinforcement Learning（強化學習）。
: : OpenAI 和 DeepSeek 早期研究發現，AI 在回答問題時“思考得更久”，往往能得出更好
: : 的答案。但過去並沒有清楚解釋：如何在推理階段控制 AI 的思考時間？
: : S1 的創新點： S1 論文提供了推理時間擴展（Inference Scaling）的具體實現方法：
: : 核心思想：
: : 如何在不改變 AI 訓練過程的情況下，提高 AI 解決複雜問題的能力？
: : 方法：讓 AI 在推理時“多想幾秒”，自動檢查自己的答案，從而減少錯誤，提高正確率
: : ！
: : 結果證明，這種方法比 OpenAI o1-preview 還要好！
: : 最重要的是：而且只用了 1000 道題！這比一般 AI 訓練的數據少了 800 倍，但效果仍
: : 然很強！
: : 此外，該模型可以在筆記本電腦上運行，並且其訓練成本僅為 6 美元。
: : 論文下載
: : https://arxiv.org/pdf/2501.19393
: ----

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.240.81 (臺灣)
※ 作者: dansy 2025-02-06 21:09:21
※ 文章代碼(AID): #1dfBI3b3 (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738847363.A.943.html

※ 同主題文章:

[情報] 50美元訓練出媲美DeepSeek R1

02-06 16:56 LimYoHwan

Re: [情報] 50美元訓練出媲美DeepSeek R1

02-06 17:16 tenshou

Re: [情報] 50美元訓練出媲美DeepSeek R1

02-06 18:54 ImHoluCan

Re: [情報] 50美元訓練出媲美DeepSeek R1

02-06 21:09 dansy

Re: [情報] 50美元訓練出媲美DeepSeek R1

02-07 08:14 DrTech

Re: [情報] 50美元訓練出媲美DeepSeek R1

02-07 13:01 icrose

→ ssarc: 這樣不夠嗎？1F 02/06 21:13

→ jo4: 現在都在用AI探索未知的知識了像蛋白質
如果公司機密也當成未知的知識被AI破解也早晚而已2F 02/06 21:13

推 sheng76314: 沒阿 DS推理不用人類介入自己跟自己對羿4F 02/06 21:16

下棋是最好回饋的機制，根據規則就能判斷勝負，絲毫沒有模糊的空間

但物理方程式的推導呢?

AI能夠根據思維鍊輕鬆創造出幾百個前所未有的方程式

但AI怎麼驗證對錯? 怎麼去驗證是否符合人類所處的宇宙?

→ sheng76314: 少了人類打標籤5F 02/06 21:16

→ angusyu: 所以你真的懂生成式AI?6F 02/06 21:21

建議您先去了解，為何黃仁勳要創造一個虛擬工廠，來訓練AI機器人的原因吧!

噓 PureAnSimple: 過程中的煙花不重要的軟體不用一直理它發文更是浪費7F 02/06 21:22

推 Shiang1225: 好吧那AI還是拿來作meme吧9F 02/06 21:22

推 stlinman: 別的先不扯，目前光是AI LLM可以自己去生成思維鏈10F 02/06 21:23

推 breathair: 如果只是這樣，幹嘛花一堆錢堆算力？堆
算力不會提升模型的智力嗎？同樣擁有全
世界的資料，智商140跟90差異會很明
顯吧？11F 02/06 21:24

→ stlinman: （CoT）就夠厲害了!學習反饋LR就夠讓人期待未來。強調一下我說的生成思維鏈是像圍棋一樣去想"棋路"。15F 02/06 21:25

同上下棋有明確勝負，不重複解釋

各種回饋寫法並不是重點，而是AI如何能得到"是否符合人類世界"的回饋?

就像愛因斯坦推導狹義相對論方程，但還是需要愛丁頓在非洲觀察日食來驗證

除非人類能創造出一個無限逼近於現實世界的虛擬系統，能讓AI在其中無限試錯學習

否則任何自回饋都只是幻覺罷了

→ pujos: 李飛飛定義裡AI有兩個面向，語言跟行動17F 02/06 21:43

推 ImHoluCan: AI大師要帶領台灣組AI team 嗎？18F 02/06 21:43

→ pujos: 她們現在在做的就是行動那部份，語言已經是上一趴的事了19F 02/06 21:44

→ ImHoluCan: 你以為AI 只有LLM ?21F 02/06 21:44

推 wallace366: 推這篇文章，能否真的做出世界模型，仿造真實世界物理規則才是ai能夠實際應用的重點。22F 02/06 21:45

→ pujos: 我們行為舉止很直覺的事，現在要轉化成電子輸出還很困難24F 02/06 21:45

→ ImHoluCan: 黃董2月不是有講？你AI大師怎麼不上台？
台廠有半島體廠已在用機器人，就Nvidia 搞的，你沒看過？26F 02/06 21:46

現有的邏輯都是PLC預先編程寫好的好像還沒見過能即時自主推論的機器人在線上

→ kinda: 理論物理學家要什麼回饋？輕小說家有去過異世界？29F 02/06 21:47

→ ImHoluCan: 真的不進產線的ㄧ堆肥貓，不知道台廠有在搞這塊30F 02/06 21:48

※ 編輯: dansy (111.253.240.81 臺灣), 02/06/2025 21:55:05

→ ImHoluCan: 機器人早就在搞，對岸也早在搞，是台灣ㄧ般人除了產線仔有些會看到，其它大肥貓都沒進產線，還以為黃董搞機器人是亂講
難怪台灣沒有DeepSeek ，我也是代工仔31F 02/06 21:51

→ pujos: 你連看都看不懂人家在搞什麼，還工廠...35F 02/06 21:55

→ scott01: 只要申請專利就是公開技術了各國的專利申請機構都能查到專利內容找不到的是被公司列為機密文件的技術但通常也能透過一些研討會找到線索36F 02/06 22:34

推 ohha0221: 其實隨便一個產品的硬體設計圖就機密文件了啊 AI再怎麼會google也撈不到資料啊除非有人外流到網路上像這類問題去問AI永遠得不到正確答案39F 02/07 01:48

作者 dansy 的最新發文:

+47 Re: [請益] 美國通膨會爆炸嗎?中國被課稅124% - Stock 板

作者: dansy 36.232.119.134 (台灣) 2025-04-08 20:59:57

生活用品不敢說但工業產品相差太遠事實上就算關稅徵到100% 中國工業產品還是比美國便宜且方便隨便搜都有一堆美國人在比較中美生產成本、難易度看完你就會發現除了價錢中國提供的是total s …

214F 49推 2噓
+3 Re: [討論] 出這種可更換鏡頭手機有搞頭嗎 - MobileComm 板

作者: dansy 114.41.64.189 (台灣) 2025-02-17 16:54:44

9F 3推
+8 Re: [新聞] 台積電考慮收購英特爾工廠多數股權 - Stock 板

作者: dansy 114.41.78.239 (台灣) 2025-02-15 08:49:37

72F 18推 10噓
+7 Re: [情報] 50美元訓練出媲美DeepSeek R1 - Stock 板

作者: dansy 111.253.240.81 (台灣) 2025-02-06 21:09:21

41F 8推 1噓
+5 Re: [請益] 美國真能把製造業搬回家嗎？ - Stock 板

作者: dansy 114.41.64.92 (台灣) 2025-02-04 01:13:42

39F 7推 2噓

點此顯示更多發文記錄