作者 KanzakiHAria (神崎・H・アリア)
標題 Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee
時間 Wed Jan 29 16:52:14 2025



建議先去看LATS 比較好理解什麼叫方法論


簡單說R1是一套"如何讓LLM可以做深度思考"的方法論

原本要讓LLM做深度思考  之前的做法一律都是COT


比如把每次LLM的輸入輸出當作一個節點

把多個節點做評分  最終選擇整條鏈評分最高的項目  即MCTS概念

這就像是alphago那樣  每次棋步後面都要估算後面幾十步對於這步的總評分(勝率)

LATS就是用LangGraph去實現MCTS的COT  這是方法論  所以可以套用任何LLM

你替換任何LLM  LATS都能提升輸出成果


GPT-o1(原q* project)採用人工先寫好大量的推論步驟去保證COT品質

並非直接讓AI去隨意生成許多條節點再自我評分   而是人工先標註什麼是好推論

因此人工撰寫教科書等級的推論就是o1高成本最主要的因素

(這也是CloseAI藏起來的主因 這個很貴不能給其他人看到XD)

就像alphago master需要挖出所有頂尖對局棋譜然後數位化



R1則是捨棄了節點拆步驟思維  直接讓LLM去隨意探索可能方式

在這個情況下R1反而做出了各種有創意的推論方式

就像是alphago zero 自行探索反而下出自己一套邏輯



如同LATS可以替換任何的LLM   R1也可以使用任何的LLM去做這件事

實驗室復現R1是指拿一個LLM 做這個方法論 看可以拿到AI怎麼做推論過程

復現的結論也高度一致  使用越優秀的LLM當作基底 可以拿到更好的推論過程

所以任何LLM都可以做R1  就跟任何LLM都可以套LATS類似

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.98.6 (臺灣)
※ 作者: KanzakiHAria 2025-01-29 16:52:14
※ 文章代碼(AID): #1dcUn0pS (Tech_Job)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738140736.A.CDC.html
※ 同主題文章:
Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee
01-29 16:52 KanzakiHAria
tr920: Openapi 都跳出來質疑有distill 痕跡了,你回那麼嗆小心被打臉啊1F 123.194.12.84 台灣 01/29 17:02
quartics: 你說的跟本不是什麼新技術,也跟distilled 不衝突3F 42.78.171.125 台灣 01/29 17:07
馬上就飛一隻出來了   不是什麼新技術  那openai google meta怎麼不先做(挖鼻
whizz:   不然這樣啦 deepseek開直播訓練  用2000塊 H800訓練來看看啊5F 1.168.110.29 台灣 01/29 17:19
才剛講完馬上就來兩個青鳥XDDDD   都有實驗室用30鎂就復現了
tr920: 可以用30鎂就復現,那DS花550萬鎂幹嘛XDD!!7F 123.194.12.84 台灣 01/29 17:34
一個是先人研究出方法  一個只是照用別人的方法

你會說你高中就學會牛頓高斯想幾十年的東西  所以牛頓高斯在浪費人生?
tr920: 以你的邏輯,R1是用人家砸大錢訓練出來的LLM來前進,那些砸大錢的公司在浪費人生?9F 123.194.12.84 台灣 01/29 17:39
"可以用30鎂就復現,那DS花550萬鎂幹嘛XDD!" 這句話是你說的又不是我說的
我現在一整個黑人問號
tr920: 一句話啦,你敢保證Deepseek沒有用Distill技術?如果不敢保證,就把隨便罵人青鳥字眼吞回去12F 123.194.12.84 台灣 01/29 17:43
對不起讓你誤會了    我絕對沒有說你是青鳥

master32: 我是覺得盡量不要一開始就把人打入某一族群,科技板不該這樣15F 111.253.56.238 台灣 01/29 18:14
lusifa2007: 政治立場帶入單純技術討論 碩士用雞腿換的?17F 114.42.230.28 台灣 01/29 18:34
https://i.imgur.com/2BDUqa7.png  如果要像這樣"純技術討論"  我還是繼續用雞腿吧
[圖]
straggler7: 純技術討論? 我信你個鬼!19F 36.229.59.188 台灣 01/29 18:55
aria0520: 但我也不是耶XD 單純就事論事
看我以往推文就知道我不是XD20F 103.224.201.110 台灣 01/29 19:20
抱歉 我不該說你是青鳥
ctw01: 這樣受益良多感謝,另外想詢問因為deepseek 似乎沒有公開他們這套方法論是對哪個LLM模型,現在openai質疑distill 是質疑他們使用的LLM對chatgpt distill然後再用這套方法論嗎?22F 180.218.44.106 台灣 01/29 19:26
這麼說很有可能   deepseek v3本身應該就是幹了很多資料XD
ctw01: 因為本身不是做NLP相關的,以前也沒接觸多少ai研究,如果問了蠢問題敬請見諒28F 180.218.44.106 台灣 01/29 19:27
LLM終於來到了zero的時代 我對這點是蠻興奮的
※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 19:44:13
BoXeX: 反而覺得distill還好  那些模型
在訓練時也沒少盜用別人著作權文章31F 111.250.18.76 台灣 01/29 20:19
lavign: LATS也是用MCTS,只是評分方式改成用LLM自己的機率函式?33F 220.134.57.143 台灣 01/29 20:32
自己把生出來的subtree再丟給LLM自己評分擇優 不一定是打分數 只要能選較好的路徑

當然衍生方式就很多  要不要另外用一個LLM專門做路徑的評分? 就可以發下一篇XD

或者專門訓練一個評分系統 發下一篇    博士生要論文生論文就是這樣做
※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 20:44:12
tanby: 知識蒸餾要有模型 OpenAI沒有公開模型 DS頂多用OpenAI模型去標注數35F 111.250.8.222 台灣 01/29 22:33
janeration: 沒有公開不代表DS拿不到啊38F 101.9.190.172 台灣 01/30 00:33

--
作者 KanzakiHAria 的最新發文:
點此顯示更多發文記錄