Re: [外絮] 用機器學習模型預測MVP得主 - NBA板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文轉寄自 ptt.cc 更新時間: 2021-04-30 15:29:07

看板 NBA

作者 y800122155 (@__@)
標題 Re: [外絮] 用機器學習模型預測MVP得主
時間 Fri Apr 30 13:33:16 2021

大略看了一下原文

提供我的一點淺見

首先

使用機器學習處理問題

是假設實際存在一個真實的模型

接著透過資料訓練出一個模型盡可能接近真實的模型

然後我們就可以拿訓練出來的模型對新的資料做預測

但是在這個問題上面

MVP票選並不是一個固定的模型

投票的人不一樣投票的思維也不一樣

即便是同一批人重新投一次票結果可能也不會一樣

因此

在這種問題上使用機器學習

甚至是各種資料科學的方法都可能存在不小的問題

資料的選取也很奇怪

作者的目的是建構一個預測MVP得主的模型

但實際上

他建構的是預測MVP得票排序的模型

作者為了讓訓練資料更多

把資料做了一個特別的調整

將原本的單一年度單一球員的資料(features)+是否為MVP(label)

調整成整個MVP票選結果排序中任意兩兩一組+誰的票多

具體詳細做法也沒有揭露

這樣的做法存在非常大的問題

因為同類型的球員會有分票效應

你不會知道把第一名的球員抽出之後

原本投給他的票會如何地分配給後面的球員

整個MVP票選結果並沒有告訴我們兩兩一組的票選結果

但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料

然後最重要的是模型訓練方式跟模型評估

除了揭示使用了 XGBoost與LambdaMART 外

其他所有重要資訊都沒有揭露

我們無法得知所有的38年之中

哪些年份被拿來做為訓練資料

或是每個年份中哪些兩兩成對的組合是訓練資料

當然更不會知道訓練出來的模型評估結果好或壞

也不無可能作者把訓練資料跟測試資料反覆做各種分切

最後選取一種最滿意的切法做最後的建模

這樣做就會造成 data leakage 的問題

大概先這樣

---

如果有太複雜的ML問題

建議寄站內信給前站長 CharlieL

XD

--

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.26 (臺灣)
※ 文章代碼(AID): #1WYvQV57 (NBA)
※ 文章網址: https://www.ptt.cc/bbs/NBA/M.1619760799.A.147.html

※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 13:35:15

→ mirror0103 : 推1F 04/30 13:39

推 MrSatan : 箭頭2F 04/30 13:39

推 jerry86 : 箭頭3F 04/30 13:41

→ ziggyzzz : 推4F 04/30 13:43

推 LeehomLee : 懂歐推5F 04/30 13:45

→ shifa : 原來他不是用38年來的所有球員數據去跑的喔6F 04/30 13:46

推 timmyen : 推XD7F 04/30 13:46

推 renna038766 : 文組聽不懂8F 04/30 13:46

→ kkb512sk : 你把濤哥放那?9F 04/30 13:47

推 somanyee : 身為外行人，這篇是不是說原始方法看起來有點問題10F 04/30 13:47
→ somanyee : ，就算是32/38猜中，可能是湊？

→ shifa : 簡單說這篇提出的疑問是訓練的方法有問題。12F 04/30 13:50
→ shifa : 但回在PTT沒用啊 XD PTT只會在意偷而已啊 XDDDD

推 ykshih : 他應該是把 38 年來的全丟進去跑然後用個普普的模型14F 04/30 13:53
→ ykshih : 所以不會 overfitting，但這種跑法根本沒意義

→ Chris5566 : 上一篇根本秀下限16F 04/30 13:53

→ ykshih : 只能說有幾年的評分標準稍微不一樣而已17F 04/30 13:53
→ ykshih : 和偷不偷根本沒啥關係

推 jonathan8907: 你放心鄉民看不懂還是會繼續吵繼續酸19F 04/30 13:57

推 NPLNT : 推20F 04/30 14:00

推 handfox : 認真了，大家只是需要找個可以吵起來的理由21F 04/30 14:02

推 GeeBen : 投票的人才是真的22F 04/30 14:04
→ GeeBen : 中肯

→ SpursTony09 : 簡直亂做一通我只信濤哥24F 04/30 14:11

推 eggy1018 : 合理推25F 04/30 14:12

推 wpd : 算力乖乖拿去挖礦好嗎??26F 04/30 14:13

→ nask : 不過就是因為不是固定模型才要機器學習阿不然excel27F 04/30 14:13
→ nask : 數據列一列就好了

這樣的說法是完全錯誤的
幾千筆資料，幾十個欄位，excel是要隨便弄個回歸交差嗎?

推 SwissMiniGun: 有做有話題29F 04/30 14:14

推 callTM : 他的sample size 就不夠大要怎麼train?30F 04/30 14:16

→ yowhatsupsli: 恩恩跟我想的一樣31F 04/30 14:19

推 edward0811 : 反正程式數據小改，改到高興的人不就好了32F 04/30 14:24

推 k7626773 : 專業推，很多留言不知道為什麼一直跳針32/38。看懂33F 04/30 14:24
→ k7626773 : model怎麼出來的比其他事情重要多了…

推 hannah5269 : 終於有人講公道話35F 04/30 14:24

推 NLchu : 就統計而已30左右的樣本數跟沒有一樣36F 04/30 14:26

你對樣本的認知有很大偏誤，並不是一整個年度作為一個樣本

→ NLchu : 頂多就是算個趣味給大家看一下打發時間而已37F 04/30 14:26

推 chh1470 : 推38F 04/30 14:28

推 yellowbooky : 其實量化分析樣本數最少30這是學術界公認的，30不會39F 04/30 14:35
→ yellowbooky : 不準

統計學上，以30或25個樣本作為足夠大的樣本來近似常態分佈，
並以常態性假設進行後續分析工作。
但是機器學習需要的資料量跟前述工作完全是兩回事，不可混淆。

推 midnamelee : 我文組先道歉41F 04/30 14:36

→ shifa : 要發戰文其實也用不到機器學習來跑，鄉民拿幾個指42F 04/30 14:36
→ shifa : 標配上自己愛的權重去給分數，分數最高的就當MVP。
→ shifa : 這樣就可以嘴誰偷了MVP。而且這方法記得之前在板上
→ shifa : 有看過類似的。原文那樣子應該比較像是拿NBA數據來
→ shifa : 當練習的成果發表吧？

推 YouGot5566 : 乾整篇都看不懂搞那麼複雜XD47F 04/30 14:37

推 andy78714 : 推48F 04/30 14:46

推 sunnyyoung : XD 這種類型的模型好像蠻適合當學校的課程專案的49F 04/30 14:52

推 pheather : Comments from Reviewer #1:50F 04/30 14:52

→ sunnyyoung : 台灣應該要有人寫幾個模型來玩啊51F 04/30 14:52

→ shifa : 我是覺得這case不太好，因為MVP跟數據表現重疊性52F 04/30 14:54
→ shifa : 太高，基本上數據漂亮的球員MVP呼聲就高

※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 15:02:23

→ shifa : 而且原文用了25個指標再做模型，搞不好結果沒有直接54F 04/30 14:57
→ shifa : 看PER來得簡單 XD
→ shifa : *"在"做模型

推 swatch44 : 以後直接看per就好了啊其他都妖魔鬼怪57F 04/30 14:59

推 JoeChang5566: 雖然我看不是很懂,這篇我也推58F 04/30 15:09

推 DemonRing : 我建議採用 Palantir 的服務59F 04/30 15:11

→ thunderman : 真實世界問題本來就一堆問題沒人知道是否真有模型60F 04/30 15:17
→ thunderman : 像人喜歡看什麼影片真的有模型嗎？only God konws
→ thunderman : 但yt跟Netflix一樣用ML train出東西來推薦影片給你
→ thunderman : 重點應該要放在是跑出來的結果有沒有用

推 VIATOR : 推shifa，配上自己愛的權重去給分數就好了...64F 04/30 15:17

推 wang2346581 : 很專業唷不過人家也只是隨便玩玩而已吧65F 04/30 15:24

推 erosha : 濤哥沒機會秀一把不然一定屌打66F 04/30 15:25

--

※ 看板: NBA　文章推薦值: 0 目前人氣: 0 累積人氣: 74　

作者 y800122155 的最新發文:

+6 Re: [討論] 阿北明天要開記者會解釋了嗎？ - HatePolitics 板

作者: y800122155 123.193.248.205 (台灣) 2024-08-11 17:41:31

12F 6推
+8 Re: [新聞] 輝達罕見遭下調評級分析師：台積電、AMD是最好投資選擇 - Stock 板

作者: y800122155 123.193.248.205 (台灣) 2024-07-07 08:24:01

25F 10推 2噓
+14 Re: [請益] 複委託獲利750萬要繳20%稅? - Stock 板

作者: y800122155 123.193.248.205 (台灣) 2024-06-30 11:06:51

45F 14推
+6 [分享] Baseball Savant MLB全壘打分析 - Baseball 板

作者: y800122155 123.193.248.205 (台灣) 2024-06-23 12:17:05

9F 6推
+7 Re: [閒聊] 一個月餐費4500元是可能的嗎？ - WomenTalk 板

作者: y800122155 123.193.248.205 (台灣) 2024-05-28 20:04:10

18F 8推 1噓

點此顯示更多發文記錄

分享網址: 複製

回到看板(←)《NBA》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享

看板名稱：確定(Enter) 取消(Esc) 搜尋(Space)

查詢帳號：確定(Enter) 取消(Esc) 搜尋(Space)

搜尋: m)m文 b)進板 c)未分類 a)作者 /)標題 q)取消？[q]

搜尋：送出(Enter) 取消(Esc)

回覆文章至: f)看板 m)作者信箱 b)兩者皆是 q)取消？[f]

要引用原文嗎？ y)引用原文 n)不引用 a)全部回覆 r)複製原文 q)取消？[y]

轉錄本文章於看板: 1)使用連結 2)使用複製 q)取消？[1]

轉寄至站內信箱於使用者: 確定(Enter) 取消(Esc)

修改文章標題為: 確定(Enter) 取消(Esc)

修改文章標題為: 確定(Enter) 取消(Esc) 全部(a)

確定要刪除這篇文章？(可按大U救回) 確定(Enter) 取消(Esc)

刪除理由:

確定(Enter) 取消(Esc)

加到這個分類：確定(Enter) 下一層(→) 回上層(←) 取消(Esc)

你覺得這篇文章: 1)真讚 2)真瞎 q)取消？[1] (再選一次即可收回)

你覺得這篇文章: 1)值得推薦 2)表示反對 3)單純註解 q)取消？[3]

guest

顯示圖片預覽(Enter) 取消(Esc)

上傳圖片

按ctrl+Enter可輸入下一行。

guest

確定要送出？確定(Enter) 取消(Esc) 繼續(e)

▏▎▍▌▋▊▉ 請按任意鍵繼續 ▉

服務條款隱私權條款聯絡站長 FB專頁