[閒聊] 使用大量數據研發AI繪圖 - ACG板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文轉寄自 ptt.cc 更新時間: 2025-07-29 11:37:13

看板 C_Chat

作者 ElfFail (秘密)
標題 [閒聊] 使用大量數據研發AI繪圖
時間 Tue Jul 29 00:39:35 2025

如題

看到一篇蠻有趣的東西
https://i.imgur.com/d6GUwOU.jpeg

最近在FB 上看到AI動漫模型「Illistrious」的廣告
他們在HuggingFace上面，有把自己訓練AI用的圖集公開（圖１）

起初想說他們會這樣做，或許很有把握自己沒有侵權疑慮吧
應該是拿自己的AI圖去訓練AI（不怕越生越醜嗎）

於是有一些程式基礎的我決定仔細研究一下
但結果告訴我……我錯了。

在「artist_urls」檔案裡面，每一位畫師都被標上了編號id
從最頂層的4437，到最底層的391586
這是極為龐大的畫師人數（圖２）

讓我想起農場中烙印在每頭動物身上的數字

而在「artist」檔案裡面，會看到大量繪師的名字
其中亞洲（含台灣）有貓鯨、張熊、空罐王等破萬追蹤繪師們上榜
（圖３～圖８）這時回顧一下「artist_urls」檔案

貓鯨老師被打上的編號是：150105
張熊老師被打上的編號是：144570
空罐王老師被打上的編號：38554

但貓鯨老師的Twitter明明已寫上「Do not use my work for AI」

接著打開他們將近20GB的「post.json」檔
裡面是他們用來訓練AI模型用的大量圖集

要知道一個json檔，超過3GB，就已經是很驚人的一件事了
打開後會發現，圖片的編號從２到６８９９１２５
（也就是接近690萬）

從這些訓練圖集當中，可以找到每個畫師被拿去訓練的作品
他們也利用大型語言工具，替每張圖片上標籤，給AI辨識
例如空罐王老師苦練畫技數年，所肝出的作品
AI是這樣給標籤的：

1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coff
ee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_o
ver_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, sm
ile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear

就只貼幾張圖，剩的可以去臉書看看

https://i.imgur.com/9O8VjYL.jpeg

https://i.imgur.com/1I0vVpS.jpeg

https://www.facebook.com/share/p/19Fy1t3cyD/

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.79.241.164 (臺灣)
※ 作者: ElfFail 2025-07-29 00:39:35
※ 文章代碼(AID): #1eXwV9zT (C_Chat)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1753720777.A.F5D.html

推 KyuubiKulama: 只能檢舉下架了1F 07/29 00:41

推 zChika: 原來是偷的，檢舉吧2F 07/29 00:42

推 gm79227922: 基本上都是這樣只差在有沒有公開3F 07/29 00:45
→ gm79227922: 而且不只是繪畫領域其他也都是這樣

→ AJwan: 跟盜版漫畫一樣管不了5F 07/29 00:49

推 kimokimocom: 抓別人作品訓練這就是AI6F 07/29 00:51

→ Golbeza: 就說是大量侵權還很多人不信7F 07/29 00:52

→ vincent8914: 這個dataset也不只是這個paper用其實傳統的資料探8F 07/29 00:53
→ vincent8914: 勘情感分析dataset也都是真人貼文只是純文字而已
→ vincent8914: gpt之類的llm就更不用說了

→ inte629l: 就某站的dataset吧，看容量快8TB11F 07/29 00:54
→ inte629l: post id取mod 1000當 bucket

推 yellowhow: 沒寄生繪師就只能搞擬真那種圖而已13F 07/29 00:54
→ yellowhow: 真用就算了，假掰說自己沒用真的很討厭

→ lou3612: 怎摸會有人把訓練資料公開15F 07/29 00:55

推 dalyadam: 老實說幾乎每個AI模型都難免用到沒授權的繪師16F 07/29 01:02
→ dalyadam: 只差在有沒有說出來了

推 shawncarter: AI就是打著科技進步的名號大量偷竊別人的心血18F 07/29 01:06

推 as3366700: novlai時代就在這樣搞了畫師名字直接就能當提示詞19F 07/29 01:11

推 RabbitHorse: 把繪師簡化成編號真夠侮辱人的，但這種ai負面文章不20F 07/29 01:17
→ RabbitHorse: 會推爆的

推 ym951305: 偷圖片訓練 ai 可恥22F 07/29 01:20

→ felixr0123: 人類究竟只是ai的飼料罷了23F 07/29 01:25

推 willytp97121: 現在各家AI飆車飆那麼兇也是為了在相關規範法令被24F 07/29 01:39
→ willytp97121: 重視以前盡可能偷跑更多一點法律沒說這樣不行我就
→ willytp97121: 儘量搶

推 gm79227922: 其實更多的是政府也知道是在偷但全部都在偷誰禁誰就27F 07/29 01:43
→ gm79227922: 落後慘

推 meatybobby: 我記得川普已經開綠燈說AI使用是fair use了29F 07/29 01:44

推 trh123h: 畢竟都是軍備競賽的材料30F 07/29 01:55

推 Jiajun0724: 這種模型本來就是靠偷阿只是敢公開也是蠻厲害的31F 07/29 01:57
→ Jiajun0724: 大概就是真的篤定反正你圖抓不了我

推 k254369: 好用的模型就算你告一個還會有下一個這就是ai時代33F 07/29 02:01

推 clovewind: 這不是早就知道的東西嗎34F 07/29 02:03

推 SweetBreaker: 天下第一搶劫大賽35F 07/29 02:03

推 smart0eddie: 吉他36F 07/29 02:06

推 zen777: 可恥果然只要是Ai生成的圖都是垃圾37F 07/29 02:18

→ sameber520: ai飼料是現在的早期階段成熟期的模型不需要人類餵38F 07/29 02:53

→ error405: d站這樣標這樣分都十幾二十年了好嗎..39F 07/29 03:30

推 rockmanx52: 這個爬蟲最扯的其實是連噗浪都掃40F 07/29 04:00

推 WindSucker: 早就授權給社群網站了41F 07/29 05:19

推 low1219: 笑死不接受AI就等著被淘汰42F 07/29 06:47

推 b160160: 身為機器學習時代自己蒐集資料開始玩ai 的人看到現在這43F 07/29 07:00
→ b160160: 些大公司的玩法真的讓人覺得很寒心

推 xsdferty035: AI就是這樣網路上所有的圖片和文字都是訓練素材45F 07/29 07:32

推 starsheep013: 不意外46F 07/29 07:51

推 mirarearia: 就噁心啊47F 07/29 08:12

→ Kurumi2000: ？這不是早就知道的事情嗎還有人不知道嗎48F 07/29 08:14

推 EfiwymsiAros: 那你可以告他49F 07/29 08:22

推 h0103661: 說侵權的倒是說說犯了哪條法律啊50F 07/29 08:23
→ h0103661: 事實就是你說禁止ai學習不具有法律效益
→ h0103661: ai學圖違規那人學圖是不是也違規

推 vhik4596: 這幾乎等於是偷東西還把被害者編號，這也太變態了吧53F 07/29 08:24

推 qaz95677: 果然ai仔=零元購54F 07/29 08:32

推 Ceferino: 現在的AI公司誰不是這樣玩的，google meta 微軟都一樣55F 07/29 08:33

推 Yoimiya: 這不是早就知道了嗎你以為寫個禁止AI 人家就不會用?56F 07/29 08:50

→ ssm3512: ai仔就是出生啊哪管你人類道德57F 07/29 09:03

→ yoyun10121: 只是拿來學就真的沒侵權疑慮呀, 現在要抓也是抓AI生出58F 07/29 09:05
→ yoyun10121: 畫師畫的原角色, 老鼠就拿這個去告Midjourney

→ sincere77: 只要沒違法什麼缺德事都幹得出來，不愧是AI仔60F 07/29 09:10

→ awenracious: 有夠噁心61F 07/29 09:37

推 yellowhow: 法律沒訂完善之前人家就是無敵62F 07/29 09:46
→ yellowhow: 只是一邊偷一邊蹭還要裝自己很乾淨真是假掰...

推 cbpa: 真難過64F 07/29 09:47

→ haseyo25: 最慘的接受沒有國家立即的訂法律來規範65F 07/29 10:09

推 Dayton: 記得很多網站都有寫使用條款授權ooxx66F 07/29 10:42
→ Dayton: 用他們網站po圖一定要按同意浮水印有沒有效力不知道

※ 看板: ACG　文章推薦值: 0 目前人氣: 0 累積人氣: 88　

作者 ElfFail 的最新發文:

+36 [閒聊] 使用大量數據研發AI繪圖 - C_Chat 板

作者: ElfFail 42.79.241.164 (台灣) 2025-07-29 00:39:35

如題看到一篇蠻有趣的東西最近在FB 上看到AI動漫模型「Illistrious」的廣告他們在HuggingFace上面，有把自己訓練AI用的圖集公開（圖１）起初想說他們會這樣做，或許很有把握 …

67F 36推
+33 [閒聊] kson x 天氣好棒 - C_Chat 板

作者: ElfFail 61.224.5.105 (台灣) 2025-07-28 16:59:19

昨天全台暴雨現在這邊在下大雨其他地方呢 kson是一位vtuber這樣

65F 34推 1噓
+18 [母雞] 喵夢PTSD發作 - C_Chat 板

作者: ElfFail 42.79.211.248 (台灣) 2025-07-28 11:06:48

20F 18推
+30 [母雞] alp推特 avemujica小感 - C_Chat 板

作者: ElfFail 42.79.211.248 (台灣) 2025-07-28 10:56:25

alp大很喜歡AveMujica呢那麼能不能安排一下呀，新的創作什麼的

41F 31推 1噓
+6 [閒聊] 唏可以和解嗎可以用在哪些地方啊 - C_Chat 板

作者: ElfFail 1.170.59.47 (台灣) 2025-07-27 12:40:39

11F 6推

點此顯示更多發文記錄

分享網址: 複製

DispBBS

回到看板(←)《ACG》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享