顯示廣告
隱藏 ✕
※ 本文為 terievv 轉寄自 ptt.cc 更新時間: 2017-10-18 12:28:32
看板 Gossiping
作者 entsai (abcd)
標題 Re: [問卦] 大數據分析與統計分析的差別?
時間 Wed Oct 18 10:09:34 2017


 小弟目前在念商業分析的碩士 來獻醜一下

甚麼是大數據跟統計呢?
我們先從統計開始看起,甚麼是統計學? 統計學推估最早在西元前五世紀就已經開始,狹
義的定義為”一個數學的分支,用於蒐集、分析、解釋以及呈現數據資料”。

統計從運用的方式可以分為兩大類:
敘述統計學:包括搜集、整理、表現、分析與解釋資料。意即它係討論如何搜集調查資料
,以及將所獲得的資料,加以整理表現解釋與分析。
推論統計學:是將敘述統計中由樣本資料所獲得的結果,將之一般化推論至母體,或是藉
由樣本統計去推論母體參數,稱為歸納統計學(inductive statistics)。

另外統計可以分成監督式(supervised)及非監督式(unsupervised)兩類,目前廣泛運用在
機器學習:
監督式學習是我們預先給了想要知道的目標,給予一些限制最後計算出我們想知道的結果
。例如藉由計算回歸(Regression)的方式得到預測股價走勢,房價走勢。另一個分類
(classification)可以區別患者的腫瘤是惡性還是良性。
非監督式學習則是不給預設的答案,我們讓電腦自己去找分群(clustering)的結論。這個
方式被廣泛用在google搜尋以及facebook等各大網路公司,他們藉由這個方式來將用戶,
影片,圖片作分群。我們學校的教授也用上課之便要我們幫他的賭場顧客做分群,並且給
營運還有行銷的建議。總歸來說分並沒有預設群對錯,會根據數據給出不同的群體數據。

講到這邊可能會有人問,那分類跟分群的差異是甚麼? 最主要的差異就是分類是有預設立
場的,所以必須一開始就知道想得到甚麼;而分群是沒有預設立場,像賭場的範例當初並
不知道拉斯維加斯的賭客有很大部分是喜歡玩賓果的,而且對於賭場的貢獻度低;另外小
部分的賭客占了極大部份的總收入。


而數據科學可以分為三類:
敘述分析、預測分析以及指導性分析。
描述分析是尋求事件發生的原因。會在歷史數據中挖掘有意義的資訊,反映與剖析過去的
表現,例如過去成功或者失敗的理由。
預測分析是估計將會發生什麼。會根據歷史數據,結合限制條件和因素,評估最大可能發
生的結果。

指導性分析是根據預測分析的結果,總結及建議不同結果的優化行動。尤其在大數據時代
,指導性分析有助於了解現實情況,把握未來機會,確定最佳結果的條件,優化利益或者
降低風險。像是Netflix或是YouTube會基於數據給予相關的建議,讓觀眾更容易看到他們
想看的影片。


那到底大數據跟統計有甚麼差異呢? 其實最大的差異就是數據的數量,傳統統計學的數量
並不會到太大,而目前小弟在實習的籃球隊提供的資料有超過一百五十萬筆,我們可以藉
由這個資料來分析、預測球員的表現。


不好意思不知道這樣有沒有解釋到,有問題可以再問我,感謝大家。


※ 引述《NCKUer (NCKUer)》之銘言:
: ※ 引述《rosenzulu (玫瑰祖魯)》之銘言:
: : 大數據
: : 最近被媒體使用到爛掉的名詞
: : 常常看到新聞「大數據顯示...」
: : 身為統計系的我 也稍微爬文瞭解一下
: : 大數據的魅力所在
: : 但看到的不外乎是
: : 「未來產業大宗就是AI、物聯網與大數據的結合」
: : 「運用大數據分析得到相關 進一步得知未來趨勢作為政策」
: : 但如果是要探討相關性、做預測
: : 使用統計方法不是也可以嗎?
: : 再查一些大數據最夯的課程
: : 幾乎都是R,Python這2個程式語言
: : 然後使用該2語言實作資料探勘、機器學習
: : 實在搞不懂大數據的新科技點在哪裡
: : 有沒有產業界大數據大師可出來為小弟解惑?
: 完全不一樣的兩個東西
: 大數據有三個限定 不是任何的數據分析都可以叫做大
: Volume容量、Velocity速度、Variety多樣性 總共三個V
: 不符合以上三者任何一項都不該叫大數據
: 大數據跟統計不同 統計不適處理變量太多的分析 表會畫不完
: 統計是給人做實驗和檢定的 實驗前要先定義各項因變數和對應變數 檢定也要有
: 大數據沒有這些東西 直接丟進去就給你結果
: 大數據的使用完完全全不需要統計基礎 你只要會寫程式就行了
: 甚至根本不需要寫程式 只需要會用、會輸入即可
: 例如分群 這些東西用統計的說法講不通的
: 商管也有很多工具也一樣是統計講不通的 並不是只有大數據有這個問題 例如田口方法
: 田口當時會流行就是因為他有避開統計繁瑣的優勢
: 沒有統計基礎一樣可以解決很多問題
: 商管、化學、生物實驗比較適合統計 不適合大數據
: 因為實驗和問卷沒辦法做那麼多份
: 大數據根本不需要統計基礎 就算你有統計基礎也講不通大數據裡面的很多工具
: 例如distribution、confidence 這些基本統計的模型在很多大數據的工具裡常常看不到
: 總之 就算你學完統計也不知道大數據在幹嘛 完全是兩碼子事
: 隨便舉個例子 非監督式學習、監督式學習 裡面一大堆都跟統計扯不上邊
: 類神經呢? 也不符統計模型 機器學習更不說了 neuron根本不是統計的東西

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.46.55
※ 文章代碼(AID): #1PvhVWua (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1508292576.A.E24.html
hooll111: 大數據就是統計的應用1F 10/18 10:10
GalLe5566: 你講的全都是統計 大數據就只是統計裡面的其中一種2F 10/18 10:11
GalLe5566: 比較潮的講法而已
GalLe5566: 要說大量的DATA 人口變項動不動就是幾千萬筆的 像美國
GalLe5566: 的人口變項研究一堆 在有大數據這個名詞之前就一堆這種
GalLe5566: 研究了
say29217074: 想問svm跟logistic regression在分類上的差異7F 10/18 10:15
SVM是將將資料投射到可以用一個超平面(Hyper-plane)分離的空間中,而邏輯斯回歸
雖然叫做回歸 其實是一個分類器

在應用的時候如果維度高用SVM

如果不是那麼高可以用LR

如果要求精準度高則用SVM 並且 cross validate

之前上Andrew Ng的機器學習也有提到
特徵數量大於訓練樣本數使用LR 如果 特徵數小 訓練樣本大則用SVM

希望有回答到

Mike9: 笑了,硬要講8F 10/18 10:16
ECZEMA: 還不錯9F 10/18 10:17
※ 編輯: entsai (59.115.46.55), 10/18/2017 10:33:43
ptguitar: 現在的電腦處理150萬筆算小量.....10F 10/18 10:25
ptguitar: 有時候數據不是大就叫大數據 若符合三V也可以稱大數據
rosenzulu: 感覺你回得蠻仔細的 不過這都是我讀統計所有學過的東12F 10/18 10:37
rosenzulu: 西 還是謝謝願意分享
entsai: 基本上同質性很高 我們上課一開始也都是上統計 真的不同點14F 10/18 11:51
entsai: 就是 應用更廣 更快 並且更能解決現實問題

--
※ 看板: terievv 文章推薦值: 0 目前人氣: 0 累積人氣: 4019 
分享網址: 複製 已複製
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇