Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據 - Stock板

作者 dreambreaken (小滅滅)
標題 Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據
時間 Thu Jan 30 01:49:14 2025

我先講我非AI專業
但這件事情基本就是鬼扯
甚麼叫做利用O1蒸餾出R1
你要用API抓多少資訊量跟TOKEN才做得出來
然後這件事情OPENAI還會不知道?
這是GPT回我的

透過 API 硬訓練一個能夠與 GPT-4 相媲美的模型，基本上是不可能的，原因如下：

1. 訓練大規模語言模型（LLM）的數據量極大

GPT-4 這種級別的模型通常訓練數百億到數兆個 Token。以 OpenAI 的 GPT-4 為例，其
訓練數據量非常龐大，遠超 API 能夠提供的輸出量。如果一家公司試圖透過 API 蒐集足
夠的數據來訓練一個類似的模型，會面臨幾個根本性的問題：

Token 成本極高：
假設要訓練一個類似 GPT-4 的模型，至少需要數千億到數兆級的 token。但 OpenAI
API 計價昂貴，以 GPT-4 Turbo（8k）為例：
1k tokens 輸入約 $0.01，輸出 $0.03
假設要獲取 1 兆 tokens（這仍遠低於 GPT-4 訓練的規模）：
輸入成本：$10M（1 千萬美元）
輸出成本：$30M（3 千萬美元）
這還只是獲取數據的成本，並未包含訓練成本！
訓練硬體需求極高：
GPT-4 級別的模型訓練需要數萬到數十萬張 A100 或 H100 GPU，加上分布式計算架構、
強大的基礎設施（如 TPUs、NVLink、高速存儲等）。
目前，只有少數科技巨頭（OpenAI、Google DeepMind、Anthropic、Meta）有這種算力。
2. OpenAI 及其他 API 提供者會限制速率
OpenAI、Anthropic、Google 都有 API 速率限制，防止這種大規模查詢行為。例如：
API 請求有速率上限，即便是企業級客戶，也不可能無限次查詢。
OpenAI 可偵測異常流量模式，如果一個帳戶開始以異常高頻率查詢，可能會被封鎖或調
查。
API 可能有內建的水印技術（Watermarking），能夠識別是否有人嘗試透過 API 逆向工
程訓練模型。
3. 透過 API 訓練的模型質量很差
即使繞過上述問題，透過 API 獲取的只是模型的輸出（Soft Labels），而不是完整的訓
練數據，導致以下問題：

知識有限：API 只能回傳有限的內容，而 GPT-4 是基於更大的數據集（書籍、論文、網
站等）訓練的，無法還原原始的知識基礎。
風格模仿但泛化能力差：學生模型可能可以模仿 GPT-4 的回應風格，但缺乏真正的理解
與推理能力。
無法獲取內部權重與梯度更新：深度學習模型不只是靠輸入與輸出，還需要內部梯度更新
來調整權重，而 API 無法提供這種資訊。
4. 真正可能的「輕量級蒸餾」方式

儘管完全複製 GPT-4 幾乎不可能，但仍有一些可能的方式來部分學習閉源模型的行為：

小規模指導性訓練（Fine-tuning）：

例如 Stanford Alpaca 項目，就是利用 GPT-3.5 API 生成了一小部分數據（5 萬條樣本
），用來微調 LLaMA 7B，但它的能力遠遠比不上 GPT-4。
增強式學習（Reinforcement Learning with AI Feedback, RLAIF）：
透過 API 讓 GPT-4 幫助標註「哪個回應比較好」，然後用這些標註來強化一個開源模型
，例如 LLaMA 或 Mistral。
少量特定領域資料的風格模仿：
例如用 GPT-4 API 生成一個領域（如醫療、法律）的數據集，然後訓練一個專門的 AI，
這樣的應用可能不會違反 OpenAI 的 ToS，但也無法真正模仿 GPT-4 的泛用能力。
結論
完全透過 API 逆向工程 GPT-4 來蒸餾一個相似的模型，基本上是不可能的。
API 成本極高，訓練 GPU 資源需求極大，讓這種方式在現實中難以執行。
OpenAI、Anthropic 等公司有 API 速率限制與異常行為偵測，防止這種濫用。
即使透過 API 硬撐出一個模型，它的泛化能力、理解能力都遠不如 GPT-4。
真正有效的方法還是依賴開源模型（如 LLaMA 3、Mistral 7B）或自己收集高質量的語料
來訓練，而不是試圖從 API 硬抄模型的知識。

說穿了要是這件事情這麼簡單
O1早就被美國其他AI公司抄爆了好嗎
拜託一點
要抄到整個模型
這成本要多高?
重點還要刷到你openai不知道
這難度比綁架土耳其人還難巴
※ 引述《LDPC (Channel Coding)》之銘言：
: 現在全網路上的開源數據資料是屬於pre-training端大多都是野生數據無標籤
: 那東西只是讓模型去向鸚鵡一樣去做文字接龍
: 但第二階段訓練會用到RLHF (Reinforcement Learning from Human Feedback)
: 就是要人類針對不同數據給意見這個是要給標籤
: 所以你才會聽到狗家之前要求全公司員工去給意見讓Gemini前身 Bard 去做人類feedback
: 這個人工成本是很大
: Deepseek-R1跟大家說我們不用人類給的feedback了我們可以免除這塊
: 大家都在討論的叫做sythetic dataset
: 這個步驟是來自於你有許多野生數據但需要加上標籤那標籤可以拿更強大模型來標註
: 比方說一道數學題目你可以用人類寫解答或者要拆步驟每步驟讓gpt-4o寫個答案
: 這就是所謂synthetic dataset 然後用這組數據去調教模型這步驟會決定
: 你的模型多智能這過程就是call api 現在ai界都這樣幹缺點就是訓練模型上限就是
: 原始母模型這跟傳統蒸留用模型直接交模型不太依一樣
: 這種方式就是可以用低成本接近gpt-4o 但你如果這樣幹你模型就不能商業化
: 頂多發表到文章講你這是怎樣做最經典例子就是LLaVA那篇講如何用gpt4o
: 產生sythetic dataset讓textLLM 變成多模態直接打爆其他大廠高成本多模態
: 之前網路上已經有人在討論到底deepseek有沒有用api去合成數據
: https://reurl.cc/A6ab98
: https://x.com/bboczeng/status/1883374489519698413 (zero是r1第一版)
: 但這思路還是有可取之處就是模型教模型不要再用人類RLHF去教模型
: https://x.com/op7418/status/1884065603184681162
: 這有點像回到當年alphago那條路線模型互相教
: 下面網址是第三方大家要複製deep-seek R1開源計畫任何人想參加都可以
: https://huggingface.co/blog/open-r1
: 目前公認是dep-seek R1隱藏了
: Replicate the R1-Distill models by distilling a high-quality
: reasoning dataset from DeepSeek-R1.
: 上面專案在徵求大家嘗試去製造出合成數據
: 好了我要去炸薯條了 @@/ 救救我
: ※ 引述《IBIZA (溫一壺月光作酒)》之銘言：
: : 各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣
: : AI = 模型的程式碼+訓練
: : 能開源的部分只有程式碼, 訓練是看各自調教
: : 模型的能力夠, 差不多的調教方式就會得到差不多的結果
: : 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強
: : 自從OpenAI爆紅以來, 大公司的LLM模型都是遵循OpenAI的訓練方法
: : 預先訓練: 拿大量文本讓AI模型學習基本語言能力、基本知識
: : 監督微調: 有了基本能力之後, 模型開始有推理能力
: : 這時候由人類介入, 告訴模型怎麼想是對的, 怎麼想是錯的
: : 之前所謂的貼標籤, 就是這個階段
: : 獎勵建模: 把對錯的判斷建立模型, AI想對了, 這個模型就獎勵他
: : 強化學習: AI自己跟自己練習
: : 不管是meta還是google, 之前都是照OpenAI這個成功模式做
: : 所以這些公司能做的就是拚算力, 透過更大量的訓練, 希望最終可以暴力超車
: : 但蒸餾就不同, 蒸餾是直接拿另一個模型的推理結果, 讓另一個模型照著得到同樣結果
: : 譬如我要我剛剛問ChatGPT, 要他給舉例說明什麼是擬人法
: : 他的回答是這樣
: : https://i.imgur.com/ey5mX61.png
: : ChatGPT要回答這個問題, 中間要經過很多推理, 譬如他要先理解我的問題
: : 這裡面就牽涉到, 他要理解我講的擬人法是修辭當中的擬人法
: : 然後再從這一個理解, 去思考擬人法的意思是甚麼, 最後再想出一個符合範例
: : 蒸餾的話, 就是學生模型已經預先知道這個問題的答案是甚麼
: : 有頭有尾, 要生出中間的推理就會比較容易
: : 但這裡有個問題
: : 你要用蒸餾讓一個模型得到另一個模型類似的能力
: : 通常就是需要老師模型產生極大量的練習後結果
: : 才能傳授畢生功力給學生模型
: : 如果ChatGPT是開源模型, 可以自己部署在自己平台上
: : 要做這樣大規模訓練是有可能
: : 但ChatGPT無法部署在自己平台
: : (剛剛有人說ChatGPT 2可以, 但蒸餾頂多只能逼近老師, 用ChatGPT 2只能蒸出垃圾)
: : 所以要做蒸餾只能透過API, 而要透過API做幾千萬甚至幾億規模的蒸餾訓練
: : 這難度極高啊....
: : (ChatGPT剛剛教我另一個方法
: : 就是拿一個原本就有ChatGPT4能力的模型
: : 這樣只要少量訓練, 就能超越ChatGPT 4
: : 但原本就有ChatGPT 4能力的新模型難道自己會生出來嗎XD
: : 你還是得先得到這個模型啊...就是V3
: : 那V3怎麼來?)

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.73.106 (臺灣)
※ 作者: dreambreaken 2025-01-30 01:49:14
※ 文章代碼(AID): #1dcceSzb (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738172956.A.F65.html

※ 同主題文章:

[新聞] OpenAI：已掌握DeepSeek盜用模型證據

01-29 21:37 andy3021515

Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據

01-29 21:38 wangrg

Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據

01-29 22:38 mangle

Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據

01-29 23:20 IBIZA

Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據

01-30 01:19 LDPC

Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據

01-30 01:49 dreambreaken

Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據

01-30 02:44 iecju520

Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據

01-30 07:26 zzahoward

Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據

01-30 08:59 Lushen

Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據

01-30 09:08 icrose

Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據

01-30 10:18 leo921080931

噓 opthr1215: 你的第一句......1F 01/30 01:50

你是ai專業嗎?
※ 編輯: dreambreaken (114.37.73.106 臺灣), 01/30/2025 01:50:52

→ keke0421: 你都說你非專業你的推論有啥證據力？2F 01/30 01:51

你只要有基本的邏輯常識就可以知道這件事情蠢到跟豬一樣
※ 編輯: dreambreaken (114.37.73.106 臺灣), 01/30/2025 01:51:46

→ chordate: 他又不是說DeepSeek只用了ChatGPT的feedback去蒸餾當然一樣有用原始的文本，但是在訓練上使用ChatGPT給reward3F 01/30 01:53

首先
1.我要花錢用你的api跟你買你所謂的reward
這要花多少錢?
2.我花錢用你的api串你全世界跑完的data
這件事情openai會完全不知道
真的笑死人
※ 編輯: dreambreaken (114.37.73.106 臺灣), 01/30/2025 01:57:10

→ newwu: 不要再用問llm 來發表高見了看了好煩，明明就不懂，還硬要用可能錯誤的資料來講得好像很懂一樣...6F 01/30 01:58

你厲害可以回一篇來蚊香阿

噓 MoonCode: 你不是專業的話只少要有單吧xD8F 01/30 01:59

※ 編輯: dreambreaken (114.37.73.106 臺灣), 01/30/2025 02:00:01
※ 編輯: dreambreaken (114.37.73.106 臺灣), 01/30/2025 02:00:14

→ ksjr: 不過上一篇的r1是說有可能的gpt說不可能這好像代表了什麼XD9F 01/30 02:04

噓 H072: 最近很多政治狂熱者來11F 01/30 02:10

→ zpeople0116: 不問政治的話，DS還蠻好用的，便宜治百病12F 01/30 02:15

推 takase: 前一篇講很詳細了
別急，太急就露餡了13F 01/30 02:20

你如果仔細看過他最後連結就知道他那個單純就是在黑而已
這麼簡單他不去複製o1甚至之後的o3
去複製r1做甚麼
你把你們論述直接拿去問o1不就知道了
※ 編輯: dreambreaken (114.37.73.106 臺灣), 01/30/2025 02:27:21

→ ImHoluCan: 好了啦Nvidia 40塊見15F 01/30 02:36

推 ohlong: 沒仔細算過但是看完你講的論點算一算應該是真的不可能有人說套api 都開源了更不可能所以最後只能猜是有很了解o1架構跟訓練方式的人跳槽過去
用極低的關鍵數據量去reward r116F 01/30 06:03

作者 dreambreaken 的最新發文:

+26 Re: [新聞] 美逼提高軍費日不滿取消2＋2會談東京喊卡兩國外長防長會面憂影響財政支出 - Stock 板

作者: dreambreaken 60.250.75.123 (台灣) 2025-06-23 10:55:04

叫日本增加軍費的原因就是柯柏吉的戰略方針拿以前古代觀念就是以夷制夷叫東亞自己去守中國阿問題日本擺明就不想打憲法寫在那也不能打要增加軍費是增加辛酸的又不打仗增加個屁軍費 …

73F 28推 2噓
+4 Re: [心得] 蘋果揭露人工智能並不思考 - Stock 板

作者: dreambreaken 60.250.75.123 (台灣) 2025-06-16 10:54:34

16F 4推
+9 Re: [新聞] 川普對台關稅出爐？中經院長：應在「15% - Stock 板

作者: dreambreaken 60.250.75.123 (台灣) 2025-04-29 09:14:45

19F 10推 1噓
+29 Re: [心得] 為啥有人會相信美債崩盤？ - Stock 板

作者: dreambreaken 60.250.75.123 (台灣) 2025-04-22 16:45:39

一年內到期的短債有9兆美國一年稅收4.4兆支出6.3兆一年預算赤字1.9兆只有幾個方法可以玩一、提高稅收想也知道共和黨不做二、削減支出退休金減少想也知道豬都不做三、延後退休豬也 …

63F 30推 1噓
+48 Re: [新聞] 彭博:川普豁免手機電腦與晶片避開對等關稅 - Stock 板

作者: dreambreaken 101.10.217.33 (台灣) 2025-04-12 22:31:14

不過有個疑問既然要扶植國內產業才需要課稅保護現在川普說電子都不課稅哪怎樣保護國內產業？現在只對傳產課稅哪川普的意思要跟越南搶紡織跟製鞋嗎現在是不是等於川普全面認輸跪了現在還要談什麼 …

175F 58推 10噓

點此顯示更多發文記錄