看板 HatePolitics
作者 treasurehill (寶藏巖公社,你還未夠班S)
標題 Re: [討論] 盜用模型是什意思?
時間 Thu Jan 30 17:24:18 2025




笑死!你連開源意思都搞錯,難怪雞同鴨講

開源是指系統開源可不包括訓練資料開源

而這種抓取他人資料來從事訓練的行為

在國外被稱為Webcrawler網路爬蟲,至少牽涉到下列幾種法律問題

1. 著作權侵害

著作權法保護原創性之著作,而美國著作權法除了要求受保護之著作必須原創性之外,尚
必須附著於一定媒介物。2007年美國聯邦第九巡迴上訴法院在Perfect 10, Inc. v.
Amazon.com乙案中,指出電腦記憶體、網路伺服器都是一種媒介,因此附著於記憶體
或伺服器的軟體程式碼,如有原創性,亦可受著作權保護。

網頁上之具有原創性的著作內容物受到著作權保護,因此未經授權爬取網頁上之受保護之
著作內容,將構成侵害網頁內容之著作權,並無疑問。


2. 違反使用者條款

多數商業網站均訂有使用者條款,以規範到訪和或使用網站之條件,用戶必須根據對這些
條款之約定到訪或使用網站。儘管,網頁爬取行為展現科技的新用途,然而這種行為可能
因為使用者違反使用者條款以抓取網頁資料,因而引發違反使用者協議之爭議。


多數情況下,目標網頁主張網路爬蟲違反使用者條款之舉證責任,往往較主張著作權侵權
之舉證責任為高。後者,網頁抓爬之目標網頁僅須證明為網頁所有人與抓爬標的為受著作
權保護之標的已足。證明違反使用者條款,網頁抓爬之目標網頁不但須證明使用者條款具
拘束力且可執行、且必須證明抓爬的行為違反適用者條款、以及抓爬行為構成目標網頁之
損害。


2007年在Southwest Airlines Co. v. BoardFirst, LLC案,被告BroadFirst的軟體提
供一項商業服務,以協助西南航空的客戶,利用西南航空公司的「開放」座位政策與辦理
登機手續(check in)以獲得飛機優先座位之利益。在本案由於網頁的使用者條款用語明
確限制網頁使用者作為非個人與商業用途之使用,因此,法院認為被告的行為屬於使用者
條款所欲規範的範圍且與條款之內容直接相關,因此不同意被告主張該使用者條款欠缺明
確而無執行力。本案審理之德州地方法院,因而判定被告BoardFirst使用西南公司網頁之
行為,已違反了西南航空的網頁中使用者條款,因為條款禁止使用者利用網頁為個人與非
商業目的用途(personal and non-commercial purpose)。


3. 電腦詐欺與濫用

美國法院認為網絡爬取行為如果違反網站使用者條款,同時可能違反電腦詐欺濫用法案(
Computer Fraud and Abuse 簡稱CFAA),該法案禁止「未經授權」或「逾越授權」進入
電腦、網路、伺服器或資料庫。一般而言,只要電腦是公開可進入,並且不受密碼或其他
保護安全措施,法院拒絕認定網路爬蟲任何造訪網頁行為違反CFAA。然而當網路爬蟲進入
受保護之網頁,且網頁透過技術措施防止未經授權之進入網頁,或有明確停止未經授權之
警告通知,則有可能構成違反CFAA法案。以下有2案涉及進入網頁抓取資料是否違反CFAA
為審理。


4.不公平競爭之違法行為

2022年9月,公平交易委員會(下稱公平會)以公處字第111070號處分書,將抄襲競爭對
手網站及APP經蒐集整理之資料而混充為自身網站及APP內容之行為,認定為榨取他人努力
成果而足以影響交易秩序之顯失公平行為,違反公平交易法第25條規定並處以罰鍰


原告北京某信息技術有限公司訴稱,其運營的某網站主要服務汽車消費者投訴受理,消費
者在網站提交針對汽車質量問題的投訴后,網站會與汽車廠商聯系並督促解決。自2014年
成立以來,該網站已累計處理了約39萬條消費者投訴信息,建立起了包括消費者投訴處理
、汽車產品缺陷問題檢測等為一體的服務體系。


  2021年6月,原告發現,被告北京某公司運營的網站中有52000余條消費者投訴信息與
原告網站展示的信息相同或者近似,且投訴日期均晚於或等同於原告網站上的日期,部分
投訴信息的附圖中甚至還帶有原告水印。此外,被告網站顯示的投訴編號數量超過11萬,
但無處於該網站投訴流程中“完成”狀態的投訴信息,原告認為,被告網站的投訴數量及
處理進展均為虛構。原告遂將被告訴至法院。


  法院經審理認為,原告主張權利的5萬余條用戶投訴信息系經過長期經營、管理、維
護而形成的數據信息,能夠給原告帶來特定的社會效益和經濟效益,屬於其市場競爭優勢
,應當受到法律保護。被告在其網站中使用原告網站5萬余條投訴信息的行為,本質上是
不正當利用原告網站投訴信息、違法將該信息據為己有的行為,違反了誠實信用原則和公
認的商業道德,給原告造成了實際損失,應當適用反不正當競爭法一般條款予以規制。此
外,被告在其網站虛構投訴數量及處理進展等行為,容易造成相關公眾對其網站經營規模
、影響力、服務效率產生誤認,亦構成虛假宣傳的不正當競爭行為。最終,法院判決被告
停止涉案不正當競爭行為、消除影響,並賠償原告105萬元。





※ 引述《dakkk (我是牛我反芻)》之銘言:
: OpenAI的open不也就是開源的意思
: 從openAi獲取資料來建自己Ai到底有什錯?
: 我們所有人也都是站在前人的巨人肩膀往前看
: 不曉得在不爽什麼

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.70.83.123 (臺灣)
※ 作者: treasurehill 2025-01-30 17:24:18
※ 文章代碼(AID): #1dcqL4xZ (HatePolitics)
※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1738229060.A.EE3.html
※ 同主題文章:
Re: [討論] 盜用模型是什意思?
01-30 17:24 treasurehill
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:26:13
lono: OpenAI的資料也是爬蟲爬來的1F 1.200.32.105 台灣 01/30 17:25
dakkk: 這種單純資料 不符合著作權標的2F 101.138.163.210 台灣 01/30 17:26

笑死!原來你不知道著作權法上有編輯性著作這種東西嗎?

第 7 條
就資料之選擇及編排具有創作性者為編輯著作,以獨立之著作保護之。
編輯著作之保護,對其所收編著作之著作權不生影響。
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:27:47
genesic: 這不就open ai幹的破事,法律也不能拿open ai 怎樣,然後就被人家用你的魔法來對付你了3F 49.216.45.95 台灣 01/30 17:27
dakkk: 他只是輸入資料 輸出也沒什著作權違反疑慮6F 101.138.163.210 台灣 01/30 17:27

回去重念著作權法啦!

第 7 條
就資料之選擇及編排具有創作性者為編輯著作,以獨立之著作保護之。
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:28:53
z1976: 但是蒸餾是用別的AI的產出來訓練自己的AI,這就不符合純資料喔7F 1.170.144.66 台灣 01/30 17:28
dakkk: 資料拿來輸入訓練 根本不是編輯 你真沒料還要硬拗9F 101.138.163.210 台灣 01/30 17:29

老天你是真不懂還假不懂?

編輯性著作就是指資料庫啦!

AI訓練出來結果也是資料庫的一種

撇開AI能不能擁有著作權之爭議

他也是編輯性著作的一種

你連人家在講什麼都沒搞懂就別在那邊跳針耍寶了好嗎?


quid1121: 未經授權拿別人訓練結果二次加工就是偷11F 1.173.181.173 台灣 01/30 17:30
genesic: 如果openai告得成deepseek, 我看光是美國要告openai的就會從東岸排到西岸了12F 49.216.45.95 台灣 01/30 17:30
quid1121: 支那腦:偷一部份不算偷啦~       <<笑死14F 1.173.181.173 台灣 01/30 17:31
kuninaka: 小草就不讀書15F 49.216.42.25 台灣 01/30 17:31
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:34:30
dakkk: kuni又來丟臉了
看不起你這種舔執政黨的行為16F 101.138.163.210 台灣 01/30 17:33
kuninaka: 那舔貪汙犯呢18F 49.216.42.25 台灣 01/30 17:34
icestormz: 3樓復活帳號19F 27.53.224.190 台灣 01/30 17:34
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:35:40
dakkk: Ai跟資料庫哪裡一樣 Ai就是類神經網路 就像人一樣大量閱讀 然後寫出自己見解 這跟著作權一點關係也沒有20F 101.138.163.210 台灣 01/30 17:36

笑死!誰告訴你類神經網路訓練出來的東西不是資料庫的?

你真的很愛自曝其短喔!


什麼是向量資料庫?

向量資料庫是以數學表示形式儲存的資料的集合。向量資料庫使機器學習模型更容易記住
先前的輸入,從而允許機器學習用於支援搜尋、推薦和文字產生用例。可以根據相似性指
標而不是精確匹配來識別資料,從而使電腦模型能夠根據上下文理解資料。

當人們參觀鞋店時,銷售人員可能會推薦與人們喜歡的鞋子類似的鞋子。同樣,在電子商
務商店購物時,商店可能會在「客戶還購買了...」之類的標題下建議類似的商品。向量
資料庫使機器學習模型能夠識別類似的物品,就像銷售人員可以找到類似的鞋子以及電子
商務商店可以推薦相關產品一樣。(事實上,電子商務商店可能會使用這樣的機器學習模
型來進行推薦。)

總而言之,向量資料庫使電腦程式能夠進行比較、識別關係和理解上下文。這使得能夠建
立進階人工智慧 (AI) 程式,如大型語言模型 (LLM)。

t21: 綠狗又要來集合了23F 223.23.18.221 台灣 01/30 17:37
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:41:14
quid1121: dak 你寫那三行露餡了 還是不要出來丟人現眼了~24F 1.173.181.173 台灣 01/30 17:39
dakkk: 向量資料庫就不是你想的那種 輸出資料也不會有什著作權疑慮 有openAi自己第一個被告26F 101.138.163.210 台灣 01/30 17:46

類神經網路背後運作原理就是向量資料庫啊

每一個權重就是就是Hyper space的法向量啊

其訓練結果也是以向量方式儲存啊!

你對類神經網路原理很不熟喔!

※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:51:02
dakkk: 而且跟編輯是有什屁關係
你貼的這一堆東西跟著作權根本沾不上邊29F 101.138.163.210 台灣 01/30 17:47

是編輯性著作不是編輯

不要當法盲好嗎?

http://www.copyrightnote.org/ArticleContent.aspx?ID=9&aid=2605
「編輯著作」之保護 - 著作權筆記
102.09.12.完成 有著作權 侵害必究 ch7943wa@ms12.hinet.net 一般的創作情形,是由著作人自己完... ...

 

「編輯著作」是因為著作人對既存之「個別著作」加以「選擇及編排」而具有「創作性」
,而受到著作權法保護。所以,關於「編輯著作」,著作權法是保護著作人「選擇及編排
而具有創作性」之部分,而不是使其對所「選擇及編排」之「個別著作」,亦享有著作權
。因此,著作權法第七條第二項規定:「編輯著作之保護,對其所收編著作之著作權不生
影響。」

※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:53:50
a1256438: 看無,那個AI不爬蟲?
你講的每個AI都有吧?31F 39.14.40.50 台灣 01/30 17:54
holysong: 臭俗辣,小偷,賤人33F 223.141.44.245 台灣 01/30 17:54
Justapig: 其實開源也是有分的,不是在license copyright 那邊寫一寫就好,但大部分人不是碼農,說了他們也聽不懂34F 114.39.70.247 台灣 01/30 17:56
holysong: 支那賤畜無物不偷37F 223.141.44.245 台灣 01/30 17:59
kuninaka: 這件事情的重點又不在開源授權LICENSE他不只爬蟲了,可能是直接接上ChatGPT的輸出結果
才會回答出GPT的內容38F 49.216.42.25 台灣 01/30 18:04
a1256438: 會覺得接上輸出結果的不知道是笨還傻,Open ai價格這麼貴,而且應該有偵測機制,這樣打一次就燒一次錢,如果是真的這造假本非常之高欸42F 39.14.40.50 台灣 01/30 18:10
pttchis: 不用跟草認真啦 你解釋他們也不懂 你用A答它只會用B回 讓牠們繼續鬧笑話就好 柯憐阿46F 111.82.13.107 台灣 01/30 18:15
kuninaka: 是拿他的東西來訓練
不是使用的時候接上好嗎 = =
差很多
而且我哪一句說造假?49F 49.216.42.25 台灣 01/30 18:18
William: 你有沒有實際用過tf生成過任何一個NN...模型用向量資料庫儲存?53F 223.137.83.145 台灣 01/30 18:20
kuninaka: 微軟也沒說他造假阿
基本上只有民進黨說造假55F 49.216.42.25 台灣 01/30 18:22
lbowlbow: 草連法條都看不懂了,要草看懂AI爭議太為難了吧57F 220.134.60.12 台灣 01/30 18:31
dreamdds: 也只能抓著這點打了59F 223.138.169.100 台灣 01/30 19:21

--
作者 treasurehill 的最新發文:
點此顯示更多發文記錄